推荐 序 


在 2013 年 的 中 国 大 数据 创新 峰会 上 ， 我 偶然 结识 了 作者 ， 期 间 聊 到 了 人 工 智能 革命 和 机 器 学 习 的 话题 ， 被 作者 的 渊博 知识 所 折服 ， 慢 慢 地 结 下 了 深厚 的 友谊 。 时 间 一 晃 而 过 ， 机 器 学 习 现 在 已 经 得 到 了 
井喷 式 发 展 ， 按 照 麻 省 理工 学 院 罗 德 尼 . 布 鲁 克 斯 的 预测 : 到 2100 年 以 前 ， 我 们 的 日 常生 活 中 将 充满 智能 机 器 人 ， 而 且 人 类 无 法 将 自己 同 它们 区 分 开 来 ， 我 们 也 将 是 机 器 人 ， 同 机 器 人 互相 联系 。 


追忆 2011 年 ， 当 时 我 在 吉林 大 学 读 研 三 ， 笠 运 地 拿 到 了 百度 研发 工程 师 的 offer， 进 入 百度 商务 搜索 架构 部 ， 一 直 做 着 与 凤 巢 广告 相关 的 工作 。 现 代 广 告 业 的 葛 基 人 大 卫 ` 奥 格 威 曾 经 说 过 ， 除 非 你 的 广 
告 建立 在 伟大 的 创意 之 上 ， 否 则 它 就 像 夜 航 的 船 ， 不 为 人 所 注意 。 广 告 的 创意 是 广告 的 灵魂 ， 我 也 一 直 沿 着 广告 内 容 技术 的 方向 ， 优 化 创意 ， 提 升 用 户 的 体验 ， 提 升 广告 主 的 转化 。 在 这 个 方向 上 ， 我 采用 
了 机 器 学 习 的 相关 技术 ， 取 得 了 毕 异 (获得 2014 年 度 百 度 最 高 奖 ) 、 图 片 凤 业 、 知 识 凤 莫 、 地 域 识 别 等 项 目的 成 功 ， 深 刻 地 体会 到 了 机 器 学 习 的 强大 ， 正 是 有 了 机 器 学 习 的 闪闪 发 光 ， 才 推动 了 很 多 令 人 惊 
艳 的 产品 的 诞生 。 对 于 互联 网 、IT 从 业 人 员 ， 机 器 学 习 已 经 成 为 必 备 利器 ， 掌 握 了 它 ， 就 等 于 站 在 了 巨人 的 肩膀 上 工作 ， 可 帮助 自己 提高 个 人 的 核心 竞争 力 。 


我 和 作者 认识 近 3 年 ， 同 时 也 是 《机 器 学 习 实 践 指南 》 第 1 版 的 读者 ， 并 在 工作 之 余 与 作者 一 起 管理 《机 器 学 习 实 践 指南 》 的 读者 QQ 群 ( 群 号 : 192029861) ， 在 群 里 认识 了 更 多 专注 机 器 学 习 的 朋友 
和 学 者 。《 机 器 学 习 实 践 指南 》 第 1 版 主要 针对 初 、 中 级 读者 ， 作 者 出 书 的 目标 就 是 : 以 机 器 学 习 算法 的 实践 应 用 为 主 ， 将 更 多 的 “门外汉 ” 带 入 机 器 学 习 殿堂 ， 让 更 多 拥有 机 器 学 习 理 论 却 无 法 下 手 的 朋友 
掌握 机 器 学 习 实践 思维 ,轻松 步 入 机 器 学 习 实 战 领域 。 实 践 思维 对 IT 行 业 非常 重要 ， 一 旦 形成 了 适当 的 思维 方式 ， 很 多 工作 中 遇 到 的 技术 难题 将 迎刃而解 ， 学 习 新 知识 的 速度 也 更 快 ， 因 为 只 有 实践 与 理论 
相 结 合 才 能 更 精准 地 理解 知识 。 也 希望 对 机 器 学 习 有 兴趣 的 读者 能 从 中 受益 。 


《机 器 学 习 实 践 指南 》 第 2 版 出 版 在 即 ， 我 高 兴 地 接受 了 作者 的 邀请 一 一 为 本 书写 推荐 序 。 第 2 版 比 第 1 版 增加 了 更 多 的 案例 和 算法 解析 ， 全 书 详细 介绍 了 机 器 学 习 发 展 及 应 用 前 景 、 科 学 计算 平台 、 
Python 计 算 平台 应 用 、R 语 言 计算 平台 应 用 、 生 产 环境 基础 、 统 计 分 析 基 础 、 描 述 性 分 析 案 例 、 假 设 检 验 与 回归 模型 案例 、 神 经 网 络 、 统 计算 法 、 欧 氏 距 离 与 余弦 相似 度 、SVM、 回 归 算 法 、PCA 降 维 、 关 
联 规则 、 聚 类 与 分 类 算法 、 数 据 拟 合 案例 、 图 像 算 法 案例 、 机 器 视觉 案例 、 文 本 分 类 案例 等 机 器 学 习 实 践 与 应 用 。 


第 2 版 致力 推动 机 器 学 习 理 论 在 国内 的 普及 和 应 用 ， 为 公司 创建 更 多 的 商业 价值 ; 同时， 力争 让 更 多 的 学 生 、IT 工 程 师 等 进入 人 工 智能 相关 领域 ， 适 应 智能 时 代 工 作 的 需要 。 


最 后 ， 希 望 大 家 喜欢 这 本 书 ， 进 而 从 中 受益 。 


徐 培 治 
百度 在 线 网 络 技术 (北京) ARAJ 


2016 年 3 月 于 北京 


为 什么 要 写 这 本 书 


随 着 全 球 第 三 次 工业 革命 的 迅猛 发 展 ， 机 器 学 习 技术 异军突起 ， 人 类 对 机 器 学 习 技 术 的 研究 也 开辟 出 了 许多 全 新 的 应 用 领域 ， 这 使 智能 机 器 的 计算 能 力 和 可 定制 性 上 升 到 了 一 个 新 的 层次 。 到 了 2015 
年 ， 人 类 在 机 器 学 习 领域 取得 了 一 系列 重大 的 突破 ， 这 项 技术 已 悄 无 声息 地 潜入 我 们 的 日 常生 活 ， 而 在 未 来 ， 机 器 学 习 也 将 拥抱 变化 ， 持 续 发 力 。 如 今 ， 它 已 经 在 各 行 各 业 的 技术 革新 中 扮演 着 日 益 重 要 的 
角色 ， 从 各 方面 影响 和 改变 着 我 们 的 生活 。 


近年 来 ， 机 器 学 习 技 术 在 国外 得 到 了 海量 应 用 和 深入 发 展 。2015 年 11 月 ， 谷 歌 开 源 了 全 新 的 TensorFlow 机 器 学 习 系 统 ， 该 系统 更 快 、 更 智能 ， 也 更 具有 弹性 。2015 年 1 月 ， 机 器 学 习 平台 GraphLab 改 
名 为 Dato， 并 获得 了 1850 万 美元 的 新 融资 (投资 方 为 Vulcan Capital, Opus Capital, New Enterprise Associates, Madrona Venture Group) ， 此 前 他 们 曾 获得 680 万 美元 的 融资 。2015 年 8 
月 ，Facebook 推 出 了 “M”，Facebook 认 为 人 类 不 仅 会 回答 人 工 智能 所 不 能 回答 的 问题 ， 而 且 从 长 远 来 看 ， 人 类 也 会 帮助 改善 人 工 智能 技术 ，“M” 除 了 能 做 到 回答 问题 、 查 阅 信 息 等 基本 功能 外 ， 还 可 
以 帮助 用 户 完成 如 购买 商品 、 和 餐厅 定位 、 安 排 旅行 计划 等 操作 。 在 2015 年 12 月 召开 的 “2015 年 神经 信息 处 理 系统 ” (NIPS) 会 议 上 ， 微 软 研究 人 员 和 工程 师 公 开 了 20 多 篇 机 器 学 习 最 新 研究 成 果 的 论文 。 
此 外 ， 微 软 还 宣布 ， 机 器 学 习 正 在 成 为 Windows 10 的 一 部 分 : Skype 翻 译 可 以 将 口语 几乎 实时 地 翻译 成 其 他 语言 ， 就 像 《 星 际 迷 航 》 中 的 通用 翻译 器 那样 ， 可 以 做 到 面对面 的 交流 。Cortana 个 人 数字 助理 
在 与 用 户 的 互动 中 不 断 学 习 与 改进 ， 从 而 帮助 用 户 管理 日 历 、 跟 踪 快 递 ， 甚 至 能 与 用 户 聊天 和 讲 笑话 ， 实 现 真 正 的 个 性 化 互动 体验 。Clutter 是 微软 Office 2016 的 成 员 ， 通 过 学 习 它 可 以 识别 出 哪些 电子 邮 
件 对 用 户 来 说 最 重要 ， 并 自动 将 不 重要 的 邮件 重 定向 到 一 个 单独 的 文件 夹 中 ， 从 而 保持 用 户 收 件 箱 的 整洁 。2015 年 9 月 ， 美 军 军队 医疗 中 心 指挥 官 少将 Steve Jones 在 美军 陆军 的 一 次 会 议 上 发 言 表示 ， 未 来 
可 以 让 智能 机 器 人 代替 人 类 上 战场 运送 伤员 ， 美 国 军 方 甚至 高 调 宣布 : 未 来 战场 上 机 器 人 救 起 的 可 能 不 是 人 ， 而 是 机 器 人 ， 因 为 智能 机 器 人 军团 将 代替 人 类 出 征 。 


在 国内 ， 机 器 学 习 掀 起 了 技术 革新 的 热潮 ， 智 能 技术 得 到 了 广泛 的 普及 和 应 用 。 隶 属于 中 国 科 学 院 的 新 松 机 器 人 自动 化 公司 生产 了 智能 复合 型 机 器 人 ， 这 个 安装 了 眼睛 和 感知 器 件 的 智能 机 器 人 ， 可 以 
在 车 间 里 自由 地 行走 并 十 分 精确 地 完成 任务 ， 当 其 他 工 位 人 手 不 足 时 ， 接 到 指令 的 他 还 会 主动 上 前 帮忙 ， 马 上 进入 角色 并 开始 工作 。 百 度 创造 和 完善 了 大 规模 机 器 学 习 的 技术 ， 搭 建 了 一 个 能 容纳 万 亿 特 征 
数据 的 、 分 钟 级 别 模型 更 新 的 、 高 效 训练 的 点 击 率 预 估 系统 ; 为 进一步 深入 地 发 展 机 器 学 习 技术 ， 百 度 开 始 研 究 如 何 从 “机 器 学 习 ” 到 “复制 人 类 大 脑 ”; 此 外 ， 百 度 甚至 在 2016 年 提出 ， 百 度 的 产品 和 服 
务 都 靠 机 器 学 习 等 技术 来 驱动 。 


随 着 机 器 学 习 技 术 在 国内 外 的 大 量 应 用 ， 机 器 学 习 工 程 师 成 为 炙手可热 的 职位 。 现 在 中 国 已 经 悄然 兴起 了 机 器 学 习 的 学 习 热潮 ， 掌 握 了 机 器 学 习 技术 的 工程 师 将 成 为 各 大 IT 巨头 疯 抢 的 “ 香 馈 馈 ”， 良 
好 的 发 展 势头 和 较 高 的 职业 薪水 ,吸引 着 越 来 越 多 的 软件 工程 师 和 数据 分 析 师 涌 入 机 器 学 习 的 领域 。 国 内 知名 的 公司 百度 、 阿 里 巴巴 、 腾 讯 (俗称 BAT) 为 迎接 大 数据 时 代 带 来 的 挑战 ， 早 已 全 面 引进 机 器 
学 习 方面 的 人 才 ， 并 有 组 织 地 对 机 器 学 习 技 术 展开 大 规模 的 、 更 深入 的 研究 。 其 他 各 大 公司 (包括 非 IT 行业 的 公司 ) 也 提出 了 引进 机 器 学 习 研 发 工程 师 的 渴求 。 


但 是 ， 机 器 学 习 的 入 门 门槛 较 高 ， 尤 其 是 对 研究 者 的 数学 理解 能 力 有 较 高 的 要 求 ， 相 对 于 数据 结构 、 算 法 导论 中 讲述 的 计算 机 算法 及 系统 架构 知识 来 说 ， 机 器 学 习 是 一 个 全 新 的 领域 ， 理 解 机 器 学 习 算 
法 往往 要 从 理解 它 所 涉及 的 数学 公式 和 数学 知识 开始 ， 打 好 数学 基础 是 非常 有 必要 的 ， 一 旦 掌握 了 数学 分 析 、 线 性 代数 、 概 率 与 统计 、 统 计 学 、 离 散 数 学 、 抽 象 代数 、 数 学 建 模 等 数学 理论 后 ， 理 解 机 器 学 
习 算 法 就 会 容易 很 多 ， 不 再 畦 惧 那些 让 人 生 厌 的 、 麻 烦 的 数学 符号 和 数学 公式 ， 说 不 定 还 会 喜欢 上 这 些 数学 公式 ， 并 亲自 推导 一 番 。 和 希望 本 书 能 帮助 朋友 们 进入 机 器 学 习 的 精彩 世界 。 
读者 对 象 
开发 人 员 。 在 理解 机 器 学 习 算 法 的 基础 上 ， 调 用 机 器 学 习 的 中 间 库 进行 开发 ， 将 机 器 学 习 应 用 于 各 种 场景 ， 如 数据 分 析 、 图 像 识别 、 文 本 分 类 、 搜 索引 擎 、 中 文智 能 输入 法 等 。 


` 架构 师 。 在 理解 机 器 学 习 算 法 的 基础 上 ， 适 应 现代 云 计算 平台 的 发 展 ， 将 机 器 学 习 和 工法 应 用 在 大 规模 的 并 行 计 算 上 。 同 时 ， 机 器 学 习 算 法 是 大 数据 分 析 的 基础 ， 如 神经 网 络 、SVM、 相 似 度 分 析 、 统 
计 分 析 等 技术 。 

| 机 器 学 习 的 初 、 中 级 读者 。 人 类 对 机 器 学 习 的 研究 只 是 一 个 开始 ， 还 远 远 没 有 结束 。 近 年 来 ， 机 器 学 习 一 直 保持 着 强劲 的 发 展 势头 ， 并 拥有 美好 的 发 展 前 景 ， 这 点 不 同 于 某 些 软件 开发 领域 中 的 程序 
语言 或 架构 知识 。 掌 握 机 器 学 习 技 术 有 一 定 的 难度 ， 但 也 意味 着 ， 掌 握 机 器 学 习 的 技术 就 能 获得 更 高 的 薪水 和 更 具 前 景 的 职业 。 


如 何 阅读 本 书 


全 书 分 为 准备 篇 、 基 础 篇 、 统 计 分 析 实 战 篇 和 机 器 学 习 实 战 篇 。 机 器 学 习 算 法 建立 在 复杂 的 计算 理论 基础 之 上 ， 并 涉及 多 门 数学 学 科 。 抽 象 的 理论 加 上 成 堆 的 数学 公式 ， 给 部 分 读者 融 来 了 极 大 的 挑 
战 ， 将 渴求 学 习 的 人 们 挡 在 了 门 外 。 针 对 这 种 情况 ， 本 书 力求 理论 联系 实际 ， 在 介绍 理论 基础 的 同时 ， 注 重 机 器 学 习 算 法 的 实际 运用 ， 让 读者 更 好 地 明白 其 中 的 原理 。 


准备 篇 中 首先 将 介绍 机 器 学 习 的 发 展 及 应 用 前 景 ， 使 读者 产生 浓厚 的 兴趣 ， 同 时 也 将 介绍 目前 囊 用 的 科学 计算 平台 和 本 书 将 用 到 的 工程 计算 平台 ， 使 读者 消除 对 机 器 学 习 的 畦 难 情 绪 ， 这 些 平 台 的 使 用 
也 降低 了 机 器 学 习 软件 实现 的 难度 。 


基础 篇 将 介绍 数学 知识 基础 和 计算 平台 应 用 实例 ， 介 绍 计算 平台 的 开发 基本 知识 ， 并 应 用 这 些 平 台 实 现 计算 应 用 。 
算 


最 后 ， 本 书 将 针对 统计 分 析 实 战 和 机 器 学 习 实 战 两 个 部 分 帮助 读者 建立 机 器 学 习 实 战 指南 ， 应 用 计 
应 用 和 理论 基础 有 一 个 形象 的 理解 。 


平台 对 统计 分 析 及 机 器 学 习 算 法 进行 实现 和 应 用 ， 同 时 还 会 附 上 效果 图 ， 让 读者 对 机 器 学 习 的 基本 


勘误 和 支持 


由 于 作者 的 水 平 有 限 ， 编 写 的 时 间 也 很 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 不 准确 的 地 方 ， 不 有 之 处 脉 请 读者 批评 指正 。 如 果 遇 到 任何 问题 ， 或 有 更 多 的 宝贵 意见 ， 欢 迎 发 送 邮件 至 我 的 邮箱 
myhaspl@myhaspl.com， 很 期 待 能 够 听 到 您 的 真挚 反馈 。 此 外 ， 本 书 的 代码 及 相关 资源 (包括 思考 题 中 涉及 的 数据 等 ) 的 下 载 地 址 为 : https://yunpan.cn/cYjhBYGLKkKTb (提取 码 : 65ad) 。 
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奖 提 名 。 他 主演 的 《 当 盏 福来 裔 门 》 让 很 多 人 理解 到 了 斑 福 是 什么 ， 而 《机 械 公敌 》 让 我 看 到 了 人 工 智 能 的 未 来 ， 我 相信 《机 械 公 政 》 描 述 的 以 下 场景 在 将 来 一 定 能 实现 : 


公元 2035 年 ， 智 能 型 机 器 人 已 被 人 类 广泛 利用 ， 作 为 最 好 的 生产 工具 和 人 类 伙伴 ， 机 器 人 在 各 个 领域 扮演 着 日 益 重 要 的 角色 。 而 由 于 众所周知 的 机 器 人 “三 大 安全 法 则 ”的 限制 ， 人 类 对 这 些 能 够 胜任 
各 种 工作 且 毫 无 怨言 的 伙伴 充满 信任 ， 它 们 中 的 很 多 甚至 已 经 成 为 各 个 家 庭 的 组 成 成 员 。 


在 此 ， 我 囊 心 地 感谢 机 械 工 业 出 版 社 华章 公司 的 编辑 杨 福 川 老 师 和 策划 编辑 杨 绣 国 老师 ， 由 于 他 们 的 魄力 和 远见 ， 让 我 顺利 地 完成 了 全 部 书稿 。 最 后 我 要 感谢 家 人 的 大 力 支 持 和 无 私 奉献 ， 正 因为 有 他 
们 的 关心 和 照顾 ， 我 才 有 足够 的 时 间 和 精力 来 完成 本 书 的 撰写 工作 。 


谨 以 此 书 ， 献 给 热爱 机 器 学 习 的 朋友 ， 以 及 喜欢 威 尔 :史密斯 的 影迷 。 


麦 好 (Myhaspl) 


2016 年 3 月 于 中 国 广东 
этиу У Бч 
第 一 部 分 ЖЕ 
子 贡 问 为 仁 。 子 日 。“ 工 欲 善 其 事 ， 必 先 利 其 器 。 居 是 邦 也 ， 事 其 大 夫 之 贤 者 ， 友 其 士 之 仁者 。” 
— 0 


第 1 章 ”机 器 学 习 友 展 及 应 用 前 景 


纵 观 国内 软件 工程 师 的 发 展 路 线 ， 前 期 多 以 程序 员 (“ 码 农 ”) 、 测 试 工程 师 、 数 据 库 管 理 员 、 多 媒体 技术 员 、 网 页 与 信息 技术 员 等 职业 为 主 ;， 中 期 主要 是 软件 设计 师 、 软 件 评测 师 、 技 术 支 持 师 等 职 
Mk; 后 期 是 职业 发 展 的 黄金 阶段 ， 这 一 阶段 对 于 拥有 丰富 技术 经 验 的 工程 师 来 说 十 分 重要 ， 但 这 一 阶段 容易 遭遇 到 技术 发 展 瓶颈 ， 因 此 ， 很 多 人 将 目光 投向 了 项 目 管理 和 系统 架构 ， 比 如 : 系统 架构 师 、 项 
目 管理 师 等 。 





近年 来 ， 国 内 对 机 器 学 习 的 研究 日 益 深入 ， 应 用 领域 不 断 扩大 ， 俊 生 了 新 的 IT 职位 一 — 机 器 学 习 工程 师 ， 百 度 、 搜 狗 、 阿 里 巴巴 、 淘 宝 、 奇 席 等 国内 IT 巨头 纷纷 提出 了 对 机 器 学 习 工程 师 的 需求 ， 掌 握 
机 器 学 习 的 人 才 成 为 了 各 大 IT 厂商 争 抢 的 “ 香 馆 刨 ”。 机 器 学 习 迅 速 走红 成 为 热门 技术 ， 这 给 软件 工程 师 带 来 了 绝 佳 的 发 展 机 遇 ， 研 究 与 应 用 机 器 学 习 算法 成 为 了 突破 技术 瓶颈 的 方式 ， 机 器 学 习 工程 师 、 
项 目 管理 师 和 系统 架构 师 并 称 为 后 期 发 展 的 三 大 黄金 职位 . 


1.1 机 器 学 习 概 述 


机 器 学 习作 为 一 门 多 领域 的 交叉 学 科 ， 在 近 20 年 里 异 军 突 出 。 机 器 学 习 涉 及 概率 论 、 统 计 学 、 微 积分 、 代 数学 、 算 法 复杂 度 理 论 等 多 门 学 科 。 通 过 可 以 让 计算 机 自动 “学 习 ” 的 算法 来 实现 人 工 智能 ， 
是 人 类 在 人 工 智 能 领域 展开 的 积极 探索 。 


2009 年 ， 被 誉 为 人 工大 脑 之 父 的 雨 果 : 德 .加 里 斯 教授 走 进 清华 大 学 讲堂 ， 在 两 小 时 的 演讲 时 间 内 ， 给 大 家 描述 了 一 个 人 工 智 能 的 世界 : 20 年 后 ， 人 工 智能 机 器 可 以 和 人 类 做 朋友 ，50 年 后 ， 人 工 智能 将 
成 为 人 类 最 大 的 威胁 ， 世 界 最 终 会 因 人 工 智能 超过 人 类 而 爆发 一 场 战 争 ， 这 场 智能 战争 也 许 会 夺 去 数 十 亿 人 的 生命 。 这 样 的 描述 并 不 是 幻想 ， 随 着 人 类 在 人 工 智能 领域 取得 的 进步 ， 这 很 有 可 能 成 为 事实 。 
而 这 一 切 主要 归功 于 对 机 器 学 习 的 研究 和 探索 。 


学 习 是 人 类 具有 的 一 种 重要 智能 行为 。 人 类 一 直 梦 想 机 器 能 像 人 类 一 样 学 习 ， 也 一 直 在 为 这 个 终极 目标 努力 。 那 么 ， 什 么 是 机 器 学 习 呢 ?长 期 以 来 众说 纷 纸 ，Langley (1996) 定义 机 器 学 习 为 : “机 
器 学 习 是 一 门人 工 智 能 的 科学 ， 该 领域 的 主要 研究 对 象 是 人 工 智 能 ， 特 别 是 如 何在 经 验 学 习 中 改善 具体 算法 的 性 能 ” (Machine learning is a science of the artificial.The field' s main objects of study 
are artifacts, specifically algorithms that improve their performance with experience.) , Mitchell (1997) 在 《Machine Learning》 中 写 道 : “机 器 学 习 是 计算 机 算法 的 研究 ， 并 通过 经 验 提 高 其 


自动 进行 改善 ” (Machine Learning is the study of computer algorithms that improve automatically through experience.) 。Alpaydin (2004) 提出 自己 对 机 器 学 习 的 定义 : “机 器 学 习 是 用 数据 


或 以 往 的 经 验 ， 来 优化 计算 机 程序 的 性 能 标准 ” (Machine learning is programming computers to optimize a performance criterion using example data or past experience) 。 


笔者 综合 维基 百科 和 百度 百科 的 定义 ， 尝 试 着 将 机 器 学 习 定 义 如 下 : “机 器 学 习 是 一 门人 工 智能 的 科学 ， 该 领域 的 主要 研究 对 象 是 人 工 智 能 ， 专 门 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行为 ， 以 获取 
新 的 知识 或 技能 ， 重 新 组 织 己 有 的 知识 结构 使 之 不 断 改善 自身 的 性 能 ， 它 是 人 工 智 能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 。 机 器 学 习 的 研究 方法 通常 是 根据 生理 学 、 认 知 科 学 等 对 人 类 学 习 机 理 的 了 
解 ， 建 立 人 类 学 习 过 程 的 计算 模型 或 认识 模型 ， 发 展 各 种 学 习 理 论 和 学 习 方 法 ， 研 究 通用 的 学 习 算 法 并 进行 理论 上 的 分 析 ， 建 立 面向 任务 的 具有 特定 应 用 的 学 习 系统 。 " 


1.1.2 机 器 学 习 的 友 展 


早 在 古代 ， 人 类 就 萌生 了 制造 出 智能 机 器 的 想法 。 中 国人 在 4500 年 前 发 明 的 指南 车 ， 以 及 三 国 时 期 诸葛 亮 发 明 的 尽 人 皆 知 的 木 牛 流 马 ; 日 本 人 在 几 百 年 前 制造 过 靠 机 械 装 置 驱动 的 玩偶 ; 1770 年 英国 公 
使 给 中 国手 帝 进 贡 了 一 个 能 写 “ 八 方向 化 ， 九 土 来 王 ”8 个 汉字 的 机 器 玩偶 (这 个 机 器 人 至 今 还 保存 在 故宫 博物 院 ) ， 等 等 。 这 些 例 子 ， 都 只 是 人 类 早期 对 机 器 学 习 的 一 种 认识 和 尝试 。 


真正 的 机 器 学 习 研究 起 步 较 晚 ， 它 的 发 展 过 程 大 体 上 可 分 为 以 下 4 个 时 期 : 

第 一 阶段 是 在 20 世 纪 50 年 代 中 叶 到 20 世 纪 60 年 代 中 叶 ， 属 于 热烈 时 期 。 

第 二 阶段 是 在 20 世 纪 60 年 代 中 叶 至 20 世 纪 70 年 代 中 叶 ， 被 称 为 机 器 学 习 冷 静 期 。 
第 三 阶段 是 从 20 世 纪 70 年 代 中 叶 人 至 20 世 纪 80 年 代 中 叶 ， 称 为 机 器 学 习 复 兴 期 。 


最 新 的 阶段 起 始 于 1986 年 。 当 时 ， 机 器 学 习 综 合 应 用 了 心理 学 、 生 物 学 和 神经 生理 学 以 及 数学 、 自 动 化 和 计算 机 科学 ， 并 形成 了 机 器 学 习 理 论 基础 ， 同 时 还 结合 各 种 学 习 方 法 取长补短 ， 形 成 集成 学 习 
系统 。 此 外 ， 机 器 学 习 与 人 工 智 能 各 种 基础 问题 的 统一 性 观点 正在 形成 ， 各 种 学 习 方法 的 应 用 学 围 不 断 扩 大 ， 同 时 出 现 了 商业 化 的 机 器 学 习 产品 ， 还 积极 开展 了 与 机 器 学 习 有 关 的 学 术 活 动 。 


近年 来 ， 随 着 全 球 第 三 次 工业 革命 的 迅猛 发 展 ， 机 器 学 习 在 国内 外 得 到 了 广泛 的 应 用 和 发 展 ， 如 今 ， 它 已 经 在 各 行 各 业 的 技术 革新 中 扮演 着 日 益 重 要 的 角色 ， 从 各 方面 影响 和 改变 着 我 们 的 生活 。 


2015 年 8 月 ，Facebook 推 出 了 “M”，Facebook 认 为 人 类 不 仅 会 回答 人 工 智能 所 不 能 回答 的 问题 ， 而 且 从 长 远 来 看 ， 人 类 也 会 帮助 改善 人 工 智能 技术 ，“M” 除 了 能 做 到 回答 问题 、 查 阅 信息 等 基本 
功能 ， 还 可 以 帮助 用 户 完成 如 购买 商品 、 餐 厅 定 位 、 安 排 旅行 计划 等 操作 。 


2015 年 11 月 ， 谷 歌 开 源 了 全 新 的 TensorFlow 机 器 学 习 系统 ， 该 系统 更 快 、 更 智能 、 更 具有 弹性 。2015 年 1 月 ， 机 器 学 习 平 台 GraphLab 改 名 为 Dato， 并 获得 了 1850 万 美元 的 新 融资 (投资 方 为 Vulcan 
Capital, Opus Capital, New Enterprise Associates, Madrona Venture Group) ， 此 前 他 们 曾 获得 680 万 美元 的 融资 。 


在 2015 年 12 月 召开 的 “2015 年 神经 信息 处 理 系统 ” (NIPS) 会 议 上 ， 微 软 研究 人 员 和 工程 师 公 开 了 20 多 篇 机 器 学 习 最 新 研究 成 果 的 论文 。 此 外 ， 微 软 还 宣布 ， 机 器 学 习 正 在 成 为 Windows 10 的 一 部 
分 : Skype 翻 译 可 以 将 口语 几乎 实时 地 翻译 成 其 他 语言 ， 就 像 《星际 迷航 》 中 的 通用 翻译 器 那样 ， 可 以 做 到 面对面 的 交流 。Cortana 个 人 数字 助理 在 与 用 户 的 互动 中 不 断 学 习 与 改进 ， 从 而 帮助 用 户 管理 日 
历 、 跟 踪 快 递 甚 至 与 用 户 聊天 和 讲 笑 话 ， 实 现 真 正 的 个 性 化 互动 体验 。Clutter 是 微软 Office 2016 的 成 员 ， 通 过 学 习 它 可 以 识别 出 哪些 电子 邮件 对 用 户 来 说 最 重要 ， 并 自动 将 不 重要 的 邮件 重 定向 到 一 个 单 
独 的 文件 夹 中 ， 从 而 保持 用 户 收 件 箱 的 整洁 。 


2015 年 年 底 ， 隶 属于 中 国 科学 院 的 新 松 机 器 人 自动 化 公司 生产 了 智能 复合 型 机 器 人 ， 这 个 安装 了 眼睛 和 感知 器 件 的 智能 机 器 人 ， 可 以 在 车 间 里 自由 地 行走 并 十 分 精确 地 完成 任务 ， 当 其 他 工 位 人 手 不 足 
时 ， 接 到 指令 的 他 还 会 主动 上 前 帮忙 ， 马 上 进入 角色 并 开始 工作 。 


百度 创造 和 完善 了 大 规模 机 器 学 习 的 技术 ， 拱 建 了 一 个 能 容纳 万 亿 特 征 数据 的 、 分 钟 级 别 模型 更 新 的 、 高 效 训练 的 点 击 率 预 佑 系统; 为 进一步 深入 地 上 发 展 机 器 学 习 技 术 ， 百 度 开 始 研究 如 何 从 “机 器 学 
习 ” 到 “复制 人 类 大 脑 ”; 2016 年 年 初 ， 百 度 提 出 ， 百 度 的 产品 和 服务 都 靠 机 器 学 习 等 技术 来 驱动 。 


11.3 ”机 器 学 习 的 未 来 


纵 观 人 类 文明 的 发 展 史 ， 人 类 已 经 走 过 了 石器 时 代 、 红 铜 时 代 、 青 铜 时 代 、 铁 器 时 代 、 黑 暗 时 代 、 启 蒙 时 代 、 蒸 汽 时 代 、 电 和 气 时 代 、 原 子 时 代 等 时 代 历程 ， 未 来 近 百 年 内 ， 人 类 将 从 原子 时 代 走 向 智能 
时 代 ， 而 且 对 于 机 器 学 习 的 未 来 ， 人 类 已 经 提出 了 很 多 构想 。 


2013 年 4 月 的 汉诺威 工业 博览 会 上 ， 工 业 4.0 战 略 的 概念 被 首次 提出 ，“ 工 业 4.0” 是 指 以 智能 制造 为 主导 的 第 四 次 工业 革命 ， 或 者 革命 性 的 生产 方法 。 该 战略 旨 人 在 通过 充分 利用 信息 通信 技术 和 网 络 空间 
虚拟 系统 与 信息 物理 系统 相 结合 的 手段 ， 将 制造 业 向 智能 化 转型 。 根 据 机 器 学 习 等 智能 技术 的 未 来 发 展 趋势 ， 工 业 4.0 主 要 包括 智能 工厂 (重点 研究 智能 化 生产 系统 及 过 程 ， 以 及 网 络 化 分 布 式 生 产 设施 的 实 
现 ) 、 智 能 生产 (主要 涉及 整个 企业 的 生产 物流 管理 、 人 机 互动 ， 以 及 3D 技 术 在 工业 生产 过 程 中 的 应 用 等 ) 、 智 能 物流 (主要 通过 互联 网 、 物 联网 、 物 流 网 ， 整 合 物流 资源 ， 充 分 发 挥 现 有 物流 的 效率 ) 等 
应 用 。 


2015 年 9 月 ， 美 军 军队 医疗 中 心 指挥 官 少 将 Steve Jones 在 美军 陆军 的 一 次 会 议 上 发 言 表示 ， 未 来 可 以 让 智能 机 器 人 代替 人 类 上 战场 运送 伤员 ， 美 国 军 方 甚至 高 调 宣布 : 未 来 战场 上 机 器 人 救 起 的 可 能 不 
是 人 ， 而 是 机 器 人 ， 因 为 智能 机 器 人 军团 将 代替 人 类 出 征 。 


在 21 世 纪 以 前 ，“ 人 工 智 能 大 爆炸 ”的 设想 似乎 还 只 是 科幻 小 说 家 杞 人 忧 天 的 幻想 。 到 了 今天 ， 有 越 来 越 多 的 人 开始 严肃 地 思考 一 个 问题 : 当 技 术 奇 点 到 来 的 时 候 ， 人 类 将 会 怎样 ? 2009 年 ，Kurzweil 
与 X-Prize 创 始 人 Peter Diamandis 共 同 建立 了 奇 点 大 学 (Singularity University) ， 致 力 于 “聚集 、 教 育 并 激励 一 批 核心 的 领导 者 ， 以 应 对 人 类 在 指数 级 增长 的 科技 下 遭遇 到 的 重要 挑战 ”， 人 类 保卫 战 似 
乎 已 经 迫在眉睫 。 这 所 大 学 由 谷歌 、 欧 特 克 、 美 国 基因 技术 公司 等 联合 支持 创建 ， 共 有 三 个 项 目 ， 覆 盖 范 围 包括 机 器 人 学 、 医 学 、 生 物 科技 、 数 据 科学 和 企业 管理 等 。 


云 计 算 带 来 了 强大 的 运算 能 力 ， 大 数据 算法 也 得 到 了 广泛 应 用 ， 虽 然 它 们 还 不 足以 使 计算 机 变 得 更 智能 ， 但 它们 创造 了 强人 工 智能 产生 的 必要 条 件 一 大 数据 使 得 机 器 能 够 从 海量 的 信息 中 进行 学 习 ， 


云 计算 拥有 廉价 且 强 大 的 接近 人 脑 的 运算 能 力 。 





在 不 久 的 将 来 ， 机 器 学 习 将 走向 强人 工 智 能 时 代 ， 将 出 现 真 正 的 能 推理 和 解决 问题 的 智能 机 器 ， 这 些 机 器 将 有 知觉 和 自我 意识 ， 智 能 水 平 与 人 类 相当 。 


1.2 ”机 器 学 习 应 用 前 景 
机 器 学 习 应 用 广泛 ， 无 论 是 在 军事 领域 还 是 民用 领域 ， 都 有 机 器 学 习 算 法 施展 的 机 会 。 
1.21 数据 分 析 与 挖掘 
“数据 挖掘 ”和 “数据 分 析 ” 通 常 被 相提并论 ， 并 人 在 许多 场合 被 认为 是 可 以 相互 蔡 代 的 术语 。 关 于 数据 挖掘 ， 现 在 已 有 多 种 文字 不 同 但 含义 接近 的 定义 ， 例 如 “识别 出 巨 量 数据 中 有 效 的 、 新 颖 的 、 洪 


在 有 用 的 、 最 终 可 理解 的 模式 的 非 平凡 过 程 ” ;百度 百科 将 数据 分 析 定 义 为 : “数据 分 析 是 指 用 适当 的 统计 方法 对 收集 来 的 大 量 第 一 手 资 料 和 第 二 手 资料 进行 分 析 ， 以 求 最 大 化 地 开发 数据 资料 的 功能 ， 发 
挥 数 据 的 作用 ， 它 是 为 了 提取 有 用 信息 和 形成 结论 而 对 数据 加 以 详细 研究 和 概括 总 结 的 过 程 。 ”无 论 是 数据 分 析 还 是 数据 挖掘 ， 都 是 帮助 人 们 收集 、 分 析 数 据 ， 使 之 成 为 信息 ， 并 作出 判断 ， 因 此 可 以 将 这 


两 项 合 称 为 “数据 分 析 与 挖掘 ”。 


数据 分 析 与 挖掘 技术 是 机 器 学 习 算 法 和 数据 存 取 技术 的 结合 ， 利 用 机 器 学 习 提供 的 统计 分 析 、 知 识 发 现 等 手段 分 析 海 量 数据 ， 同 时 利用 数据 人 存 取 机 制 实 现 数据 的 高 效 读 写 。 机 器 学 习 在 数据 分 析 与 挖掘 
领域 中 拥有 无 可 取代 的 地 位 ，2012 年 Hadoop 进 军机 器 学 习 领域 就 是 一 个 很 好 的 例子 。 


2012 年 ，Cloudera 收 购 Myrrix 共 创 Big Learning， 从 此 ， 机 器 学 习 俱乐部 多 了 一 名 新 会 员 。Hadoop 和 便宜 的 硬件 使 得 大 数据 分 析 更 加 容易 ， 随 着 硬盘 和 CPU 越 来 越 便宜 ， 以 及 开源 数据 库 和 计算 框架 
的 成 熟 ， 创 业 公司 甚至 个 人 都 可 以 进行 TB 级 以 上 的 复杂 计算 。Myrrix 从 Apache Mahout 项 目 演变 而 来 ， 是 一 个 基于 机 器 学 习 的 实时 可 扩展 的 集群 和 推荐 系统 。 


其 他 大 公司 也 纷纷 采用 机 器 学 习 技 术 分 析 数 据 ， 以 提高 其 产品 和 服务 的 质量 。 微 软 官方 正式 启动 Azure 机 器 学 习 平台 ， 并 已 经 在 Xbox 和 Bing 中 使 用 ， 它 能 够 支持 R、Python、Hadoop、Spark 等 语 
言 。 福 特 用 Al 安排 工作 进度 ， 通 过 Al 解决 其 因 员 工 日 益 增 多 而 带 来 的 工作 安排 问题 。 谷 歌 将 大 型 机 器 学 习 技 术 应 用 于 药物 发 现 ， 将 神经 网 络 的 深度 学 习 应 用 于 虚拟 药物 筛选 ， 主 要 是 试图 著 换 或 提高 高 通 量 
筛选 过 程 中 的 计算 方法 。 雅 虎 使 用 机 器 学 习 算 法 挖掘 160 人 2 邮件 数据 ， 实 验 室 的 研究 人 员 研 究 了 两 百 万 人 之 间 的 160 亿 封 邮件 ， 以 分 析 用 户 的 行为 习惯 。PayPal 使 用 机 器 学 习 来 打击 诈骗 ， 通 过 机 器 学 习 和 统 
计 模 型 来 识别 诈骗 行为 ， 将 更 复杂 的 算法 用 于 过 滤 交 易 。AWs 向 欧洲 开发 商 开 放 机 器 学 习 服务 ， 可 以 通过 AWS3 Dublin 区 域 使 用 该 服务 ， 公 司 期 望 亚马逊 的 机 器 学 习 能 够 帮助 解决 限制 问题 ， 所 有 的 分 析 和 
预测 均 通过 在 欧洲 的 数据 完成 ， 并 且 从 不 离开 这 个 区 域 。 


1.2.2 ”模式 识别 

模式 识别 起 源 于 工程 领域 ， 而 机 器 学 习 起 源 于 计算 机 科学 ， 这 两 个 不 同学 科 的 结合 带 来 了 模式 识别 领域 的 调整 和 发 展 。 模 式 识别 研究 主要 集中 在 两 个 方面 : 一 是 研究 生物 体 (包括 人 ) 是 如 何 感 知 对 象 
的 ， 属 于 认识 科学 的 范畴 ; 二 是 在 给 定 的 任务 下 ， 如 何 用 计算 机 实现 模式 识别 的 理论 和 方法 ， 这 些 是 机 器 学 习 的 长 项 ， 也 是 机 器 学 习 研究 的 内 容 之 一 。 

模式 识别 的 应 用 领域 广泛 ， 包 括 计算 机 视觉 、 医 学 图 像 分 析 、 光 学 文字 识别 、 自 然 语 言 处 理 、 语 音 识 别 、 手 写 识 别 、 生 物 特 征 识别 、 文 件 分 类 、 搜 索引 警 等 ， 而 这 些 领 域 也 正 是 机 器 学 习 的 大 展 身手 的 
舞台 ， 因 此 模式 识别 与 机 器 学 习 的 关系 越 来 越 密切 ， 以 至 于 国外 很 多 书籍 把 模式 识别 与 机 器 学 习 综 合 在 一 本 书 里 讲述 。 
1.2.3 ”更 广阔 的 领域 


2015 年 是 机 器 学 习 年 ， 用 机 器 学 习 改造 人 类 社会 的 革命 时 代 已 经 来 i 临 。 不 但 谷歌 、 亚 马 逊 、 埃 森 哲 、 丰 田 、 特 斯 拉 、 美 国 强 生 等 大 公司 都 在 大 规模 地 采用 机 器 学 习 技术 ， 而 且 ， 创 业 公司 也 加 入 了 这 场 
机 器 学 习 的 革命 ， 并 拥有 和 大 公司 同等 的 地 位 。 创 业 公司 已 经 公布 了 机 器 学 习 的 创新 型 应 用 ， 投 资 商 对 机 器 学 习 创 业 公司 表 示 出 浓厚 的 兴趣 。 已 经 有 超过 170 家 创业 公司 进入 Al 浪潮 ， 谷 歌 、1BM 等 大 型 科技 
公司 并 对 Al 投入 重金 。 


机 器 学 习 技 术 在 全 球 各 行 各 业 的 应 用 已 经 进入 井喷 时 期 ， 相 关 新 闻 比 比 皆 是 。Google DeepMind 研 究 人 员 已 经 成 功 让 计算 机 通过 机 器 学 习 成 为 Atari 视 频 游戏 的 大 师 。 谷 歌 与 美国 强生 合作 发 展 的 Al 手 
术 机 器 人 ， 能 够 帮助 外 科 医 生 减 少 对 病人 的 伤害 。Facebook 开 发 了 人 工 智能 测试 ， 能 够 判断 Al 的 智能 程度 。Dato 也 加 入 了 机 器 学 习 创 业 洪流 ， 机 器 学 习 平 台 GraphLab (GraphLab 是 一 个 开源 项 目 ， 旨 在 
帮助 机 器 分 析 图 像 ， 如 社交 关系 图 ) 改名 Dato， 获 得 了 1850 万 美元 的 新 融资 。 微 软 已 经 为 “小 娜 ”构建 了 聊天 机 制 ， 机 器 学 习 使 得 “小 娜 “不仅 能 够 识别 玩笑 并 能 预测 运动 赛事 ， 还 能 够 告诉 你 早点 去 开会 
(比如 因为 交通 堵塞 ) 。 英 特 尔 的 18 核 Xeon 心 片 为 机 器 学 习 专 门 做 了 调整 ， 为 快速 变化 的 服务 市 场 设计 了 E7 必 片 ， 该 公司 宣称 ， 新 的 芯片 在 运作 企业 应 用 时 要 快 6 倍 。Airbnb 公 布 了 机 器 学 习 包 
Aerosolve，Airbnb 相 信人 与 机 器 以 共生 的 方式 进行 合作 的 效率 会 比 只 有 人 或 机 器 高 ， 这 个 包 的 设计 本 质 是 追求 人 性 化 。 机 器 学 习 也 进入 了 Gartner 的 2015 Hype Cycle 报告 ，Hype Cycle 只 展示 数字 人 文 主 
义 的 技术 并 且 它 主要 展示 Gartner 认 为 有 重大 影响 的 技术 ， 而 机 器 学 习 是 报告 中 第 一 个 出 现 的 技术 。 
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机 器 学 习作 为 一 门 多 领域 交叉 学 科 ， 该 领域 的 主要 研究 对 象 是 人 工 智 能 ， 专 门 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行为 ， 以 获取 新 的 知识 或 技能 ， 重 新 组 织 已 有 的 知识 结构 ， 使 之 不 断 改善 自身 的 性 
能 ， 它 是 人 工 智能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 。 


近年 来 ， 机 器 学 习 的 研究 与 应 用 在 国内 外 越 来 越 重 视 。 机 器 学 习 已 经 广泛 应 用 于 语音 识别 、 图 像 识 别 、 数 据 挖 掘 等 领域 。 大 数据 时 代 的 到 来 ， 使 机 器 学 习 有 了 新 的 应 用 领域 ， 从 包含 设备 维护 、 借 贷 申 
请 、 金 融 交 易 、 医 疗 记 录 、 广 告 点 击 、 用 户 消费 、 客 户 网 络 行为 等 数据 中 发 现 有 价值 的 信息 已 经 成 为 其 研究 与 应 用 的 热点 。 


我 们 以 记者 与 雨 果 - 德 :加 里 斯 教授 的 部 分 专访 内 容 来 结束 这 一 章 。 
记者 : 为 什么 选择 这 个 研究 工作 ? 


RR o 加 里 斯 : 对 人 类 大 脑 的 好 奇 心 和 人 脑 的 想象 力 的 好 奇 心 。 人 类 只 是 一 个 个 分 子 构成 的 机 器 ， 像 计算 机 的 芯片 一 样 ， 像 编制 程序 一 样 。 另 一 方面 ， 作 为 生物 人 都 会 死亡 消失 的 ， 但 人 工 智能 机 


器 就 不 会 。 所 以 说 ， 这 个 研究 就 像 制 造 神 一 样 。 


当 人 类 促使 技术 进步 ， 让 具有 人 工 智能 的 机 器 人 得 以 诞生 和 发 展 ， 但 总 有 一 天 人 工 智能 机 器 会 实现 自己 进化 ， 当 这 种 技术 达到 一 个 奇 点 的 时 候 ， 就 不 需要 人 类 来 推动 了 。 比 人 类 聪明 得 多 的 人 工 智能 机 
器 将 在 以 年 为 单位 的 短 时 间 里 产生 。 


记者 : 预测 一 下 未 来 人 工 智 能 机 器 的 前 景 。 


SR 德 . 加 里 斯 : 下 一 个 20 年 ， 它 们 很 有 可 能 出 现在 我 们 的 家 里 ， 为 我 们 打扫 房间 ， 照 顾 小 孩 ， 和 我 们 聊天 ， 给 我 们 来 自 地 球 上 知识 库 里 面 的 无 限 知识 。 我 们 还 将 可 以 和 它们 有 性 关系 ， 被 它们 教 
育 ， 从 它们 那里 得 到 娱乐 和 开怀 大 笑 。20 年 后 的 大 脑 制造 业 ， 每 年 全 球 范围 内 将 可 能 创造 万 亿美 元 的 价值 。 人 工 智 能 机 器 有 比 我 们 聪明 万 亿 倍 的 可 能 性 ， 不 辱 张 地 说 ， 人 工 智 能 机 器 和 人 类 交流 ， 就 像 人 类 
试图 和 岩石 交流 一 样 艰难 。 不 过 ， 真 正 的 人 工 智 能 在 我 死 后 的 三 四 十 年 内 不 会 被 制造 出 来 。 我 活着 看 不 到 工作 的 真正 结果 ， 这 是 让 我 滑 吕 和 失望 的 一 个 根源 。 
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第 2 章 “ 科 学 计算 平台 

机 器 学 习 算 法 具有 坚实 的 数学 理论 支持 ， 机 器 学 习 的 应 用 建立 在 科学 计算 的 基础 上 ， 而 数学 计算 又 是 科学 计算 的 主要 组 成 部 分 。 计 算 机 技术 的 飞速 发 展 和 计算 数学 方法 及 理论 的 日 益 成 熟 ， 使 解决 复杂 
的 数学 计算 问题 成 为 可 能 。 这 些 问题 在 以 前 用 一 般 的 计算 工具 来 解决 非常 困难 ， 而 现在 用 计算 机 来 处 理 却 非常 容易 。 目 前 用 计算 机 处 理 得 较 多 的 数学 计算 主要 分 为 以 下 两 类 : 

第 一 类 是 数值 计算 ， 它 以 数值 数组 作为 运算 对 象 ， 给 出 数值 解 ) 计算 过 程 中 可 能 会 产生 误差 累积 问题 ， 影 响 了 计算 结果 的 精确 性 ; 计算 速度 快 ， 占 用 资源 少 。 

第 二 类 是 符号 计算 ， 它 以 符号 对 象 和 符号 表达 式 作 为 运算 对 象 ， 给 出 解析 解 ; 运算 不 受 计算 误差 累积 问题 的 影响 ;计算 指令 简单 ; 占用 资源 多 ， 计 算 耗 时 长 。 


数值 计算 方法 成 为 了 科学 计算 的 重要 手段 ， 它 研究 怎样 利用 计算 工具 来 求 出 数学 问题 的 数值 解 。 数 值 计 算 方 法 的 计算 对 象 是 微 积 分 、 线 性 代数 、 插 值 与 逼近 及 最 小 二 乘 拟 合 、 数 值 积分 与 数值 微分 、 矩 
阵 的 特征 值 与 特征 向 量 求解 、 线 性 方程 组 与 非 线 性 方程 求 根 ， 以 及 微分 方程 数值 解法 等 数学 问题 ， 这 些 是 模式 识别 、 数 据 分 析 及 自动 制造 等 机 器 学 习 领 域 需要 应 用 的 数学 。 


符号 计算 是 专家 系统 等 机 器 学 习 领 域 需要 应 用 的 数学 ， 在 符号 计算 中 ， 计 算 机 处 理 的 数据 和 得 到 的 结果 都 是 符号 。 符 号 既 可 以 是 字母 和 公式 ， 也 可 以 是 数值 ， 其 运算 以 推理 解析 的 方式 进行 ， 不 受 计算 
误差 积累 问题 困扰 ， 计 算 结果 为 完全 正确 的 封闭 解 或 任意 精度 的 数值 解 ， 这 意味 着 符号 计算 给 出 的 结果 能 避免 因 舍 入 误差 而 引起 的 问题 。 还 有 更 多 的 数学 分 支 正 在 进入 机 器 学 习 领 域 ， 复 杂 的 数学 计算 需要 
强大 的 科学 计算 平台 。 科 学 计算 平台 提供 了 机 器 学 习 算 法 应 用 的 底层 支持 。 


21 ”科学 计算 软件 平台 概述 


现代 科学 研究 的 方法 主要 有 三 种 : 理论 论证 、 科 学 实验 、 科 学 计算 。 近 年 来 ， 科 学 计算 方法 逐步 成 为 科学 研究 的 主流 方法 ， 在 金融 工程 、 信 息 检索 、 基 因 研 究 、 环 境 模 拟 、 数 值 计算 、 数 据 分 析 、 决 策 
支持 等 领域 得 到 了 广泛 使 用 。 由 于 计算 机 技术 的 发 展 及 其 在 各 技术 科学 领域 的 应 用 推广 与 深化 ， 这 些 应 用 领域 不 论 其 背景 与 含义 如 何 ， 都 要 用 计算 机 进行 科学 计算 ， 都 必须 建立 相应 的 数学 模型 ， 并 研究 其 
适合 于 计算 机 编程 的 计算 方法 。 科 学 计算 平台 已 经 成 为 科学 研究 必要 的 基础 条 件 平 台 ， 有 力 地 推动 了 科学 研究 的 发 展 和 工程 技术 的 进步 。 


机 器 学 习 应 用 需要 科学 计算 的 支持 。 大 部 分 科学 计算 应 用 的 领域 都 需要 用 到 机 器 学 习 算法 ， 科 学 计算 平台 与 机 器 学 习 之 间 的 关系 就 像 鱼 与 水 的 关系 。 现 代 机 器 学 习 研究 与 应 用 早已 经 离 不 开 科学 计算 平 
台 的 支撑 ， 科 学 计算 平台 也 因为 机 器 学 习 的 迅猛 发 展 而 进入 了 全 新 的 百家争鸣 时 代 。 
2.1.1 ”常用 的 科学 计算 软件 

目前 常用 的 科学 计算 软件 有 以 下 几 种 : 
1.MATLAB 


MATLAB 是 一 种 用 于 数值 计算 、 可 视 化 及 编程 的 高 级 语言 和 交互 式 环境 。 使 用 MATLAB， 可 以 分 析 数 据 、 开 发 算法 、 创 建 模 型 和 应 用 程序 ， 通 过 和 矩 阵 运 算 、 绘 制 函 数 和 数据 、 实 现 算法 、 创 建 用 户 界 
面 、 连 接 其 他 编程 语言 等 方式 完成 计算 ， 比 电子 表格 或 传统 编程 语言 (如 C/C++ 或 Java) 更 方便 快捷 。MATLAB 具 有 强大 的 数值 计算 功能 ， 可 完成 矩阵 分 析 、 线 性 代数 、 多 元 国 数 分 析 、 数 值 微 积 分 、 方 程 
求解 、 边 值 问 题 求解 、 数 理 统计 等 常见 的 数值 计算 ， 同 时 它 也 能 进行 符号 计算 。 


2.GNU Octave 


GNU Octave 与 MATLAB 相 似 ， 它 是 自由 软件 基金 会 开发 的 一 个 自由 再 发 布 软件 ， 以 John W.Eaton 为 首 的 一 些 志愿 者 共同 开发 了 叫 作 GNU Octave 的 高 级 语言 ， 这 种 语言 与 MATLAB 兼 容 ， 主 要 用 于 数 
值 计算 ， 同 时 它 还 提供 了 一 个 方便 的 命令 行 方式 ， 可 以 数值 求解 线性 和 非 线 性 问题 ， 以 及 做 一 些 数值 模拟 。 


3.Mathematica 


Mathematica 系 统 是 美国 Wolfram 研 究 公司 开发 的 一 个 功能 强大 的 计算 机 数学 系统 。 它 提供 了 范围 广泛 的 数学 计算 功能 ,支持 在 各 个 领域 工作 的 人 们 做 科学 研究 的 过 程 中 的 各 种 计算 。 这 个 系统 是 一 个 
集成 化 的 计算 机 软件 系统 ， 它 的 主要 功能 包括 符号 演算 、 数 值 计算 和 图 形 三 个 方面 ， 可 以 帮助 人 们 解决 各 种 领域 里 比较 复杂 的 符号 计算 和 数值 计算 的 理论 和 实际 问题 。 


4.Maple 


1980 年 9 月 ， 加 拿 大 滑铁卢 大 学 的 符号 计算 研究 小 组 研制 出 一 种 计算 机 代数 系统 ， 取 名 为 Maple， 如 今 Maple 已 演变 成 为 优秀 的 数学 软件 ， 它 具有 良好 的 使 用 环境 、 强 有 力 的 符号 计算 能 力 、 高 精度 的 
数字 计算 、 灵 活 的 图 形 显示 和 高 效 的 可 编程 功能 。Maple 在 符号 计算 方面 功能 强大 ， 符 号 计算 式 可 以 直接 以 数学 的 形式 来 输入 和 输出 ， 直 观 方便 。 


5.SPSS 


SPss 预 测 分 析 是 IBM 公 司 的 产品 ， 它 提供 了 统计 分 析 、 数 据 和 文本 挖掘 、 预 测 模型 和 决策 优化 等 功能 。1BM 宣 称 ， 使 用 ?Pss 可 获得 5 大 优势 : 商业 智能 ， 利 用 强大 而 简单 的 分 析 功 能 ， 控 制 数据 爆炸 ， 
满足 组 织 灵 活 部 署 商 业 智 能 的 需求 ， 提 升 用 户 期 望 值 ， 绩 效 管理 ， 指 导管 理 战 略 ， 使 其 朝 着 最 能 盈利 的 方向 发 展 ， 并 提供 及 时 准确 的 数据 、 场 景 建 模 、 浅 显 易 懂 的 报告 等 ;预测 分 析 ， 通 过 发 现 细微 的 模式 
关联 ， 开 发 和 部 署 预 测 模型 ， 以 优化 决策 制定 ; 分 析 决 策 管理 ,一 线 业务 员工 可 利用 该 系统 ， 与 每 位 客户 进行 互动 ， 从 中 获取 丰富 信息 ， 提 高 业务 成 绩 ， 风 险 管 理 ， 在 合理 的 前 提 下 ， 利 用 智能 的 风险 管理 
程序 和 技术 ， 制 定 规避 风险 的 决策 。 


6.R 


R 语 言 是 主要 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 。R 目 前 由 “R 开 发 核心 团队 ”″” 负 责 开 发 ， 它 是 基于 S 语 言 的 一 个 GNU 项 目 ， 语 法 来 自 gcheme， 所 以 也 可 以 当 作 S 语 言 的 一 种 实现 ， 虽 然 R 主 要 用 于 
统计 分 析 或 者 开发 统计 相关 的 软件 ， 但 也 可 用 作 和 矩阵 计 算 ， 其 分 析 速 度 堪 比 GNU Octave 甚 至 MATLAB。R 主 要 是 以 命令 行 操作 ， 网 上 也 有 几 种 图 形 用 户 界 面 可 供 下 载 。R 内 建 多 种 统计 学 及 数字 分 析 功 能 ， 
还 能 透 过 安装 套件 (Packages) 增强 。 


7.NumPy、SciPy、matplotlib 等 Python 科 学 计算 平台 


Python 是 一 种 面向 对 象 的 、 动 态 的 程序 设计 语言 ， 它 具有 非常 简洁 而 清晰 的 语法 ， 既 可 以 用 于 快速 开发 程序 脚本 ， 也 可 以 用 于 开发 大 规模 的 软件 ， 特 别 适 合 于 完成 各 种 高 层 任 务 。 随 着 NumPy、 
SciPy、matplotlib 等 众多 程序 库 的 开发 ，Python 越 来 越 适合 用 于 科学 计算 。NumpPy 是 一 个 基础 科学 的 计算 包 ， 包 括 : 一 个 强大 的 N 维 数组 对 象 封装 了 C++ 和 Fortran 代 码 的 工具 、 线 性 代数 、 侍 立 叶 转 换 
和 随机 数 生成 函数 等 其 他 复杂 功能 的 计算 包 。SsciPy 是 一 个 开源 的 数学 、 科 学 和 工程 计算 包 ， 能 完成 最 优化 、 线 性 代数 、 积 分 、 插 值 、 特 殊 函 数 、 快 速 傅 里 叶 变 换 、 信 号 处 理 和 图 像 处 理 、 常 微分 方程 求解 等 
计算 。matplotlib 是 Python 最 著名 的 绘图 库 ， 它 提供 了 一 整套 和 MATLAB 相 似 的 命令 API， 十 分 适合 交互 式 制图 ， 它 也 可 以 方便 地 用 作 绘 图 控件 ， 肉 入 GUI 应 用 程序 中 。 


2.1.2 ”本 书 使 用 的 工程 计算 平台 


MATLAB、Mathematica、Maple、SPSS 等 软件 功能 齐全 、 界 面 友好 ， 同 时 内 含 多 种 强大 的 软件 包 ， 但 价格 昂贵 ， 它 们 都 是 商业 化 软件 ，GNU Octave、R 和 Python 科学 计算 包 作为 开源 免费 的 工程 计 


算 平台 ,会 是 不 错 的 选择 。 


本 书 选 择 R 和 Python 科学 计算 包 作为 工程 计算 平台 ，Python 和 R 都 能 在 多 种 操作 系统 平台 上 运行 。Python 是 一 种 非常 流行 的 脚本 语言 ， 用 户 较 多 ， 容 易 掌握 ， 也 有 成 熟 并 行 计 算 框架 dispy 等 ， 测 试 成 
功 的 单机 机 器 学 习 算 法 稍 加 修改 就 能 应 用 于 大 规模 分 布 式 计 算 的 工程 之 中 。 正 是 因为 Python 具有 如 此 之 多 的 优点 ，Google 内 部 也 经 常 使 用 它 。R 语 言 内置 大 量 统计 分 析 包 ， 能 访问 部 分 系统 函数 ， 核 心 为 解 
释 执 行 的 语言 ， 大 部 分 用 户 可 见 的 R 遂 数 由 R 语 言 本 身 编 写 ， 出 于 效率 原理 ， 计 算 密 集 型 任务 通过 在 运行 时 链接 与 调用 C、C++、FORTRAN 代 码 完 成 。 此 外 ， 通 过 Rcpp 能 把 丰富 的 R 环 境 与 C/C++ 等 结合 ， 
将 R 的 API 与 数据 对 象 封闭 成 类 以 及 类 的 方法 ， 供 外 部 C++ 程 序 调用 。 


22 ”计算 平台 的 配置 


本 章 将 以 Windows 平 台 和 Linux 平 台 为 例 ， 讲 解 R 和 Python 科学 计算 平台 的 配置 。Python 和 R 有 具有 跨 平 台 运行 的 特点 ，Windows 平 台 编写 的 Python 和 R 代 码 只 需 修 正 兼容 性 问题 即 可 正常 运行 在 类 
UNIX 平 台 上 ， 如 : 中 文字 符 的 UTF8 与 GBK 转 换 、Windows 系 统 与 类 UNIX 平 台 的 文件 路 径 差 异 等 。 


2.2.1 Numpy 等 Python 科学 计算 包 的 安装 与 配置 
Python 科学 计算 包 有 两 种 安装 方式 ， 即 : 分 别 安 装 科 学 计算 平台 内 的 软件 包 和 安装 WinPython 集 成 计算 包 。 如 果 是 开发 环境 ， 建 议 使 用 WinPython。 
1. 分 别 安装 科学 计算 平台 内 的 软件 包 
先 安装 Python， 关 于 它 的 版 本 ， 推 荐 使 用 2.7 版 本 ， 然 后 安装 NumPy、SciPy、matplotlib 等 Python 软件 包 ， 它 们 都 有 Windows 系 统 下 的 安装 包 。 
Python 安装 包 的 下 载 页 面 为 http://www.python.org/download/， 选 择 2.7 版 本 的 Windows 安 装 可 执行 文件 下 载 即 可 。 
NumpPy 安 装 包 下 载 页 面 为 https://pypi.python.org/pypi/numpy， 下 载 Windows 版 本 的 安装 可 执行 文件 即 可 。 


SciPy 安 装 包 下 载 页 面 为 https://pypi.python.org/pypi/scipy/， 该 软件 包 目前 没有 Windows 版 本 的 安装 执行 文件 ， 要 用 传统 的 Python 安 装 第 三 方 软件 包 的 方式 安装 ， 将 安装 包 下 载 解压 ， 然 后 在 命令 
行进 入 解压 目录 ， 输 入 以 下 命令 : 


python setup.py install 





Matplotlib 软 件 包 的 下 载 页 面 为 http://matplotlib.org/downloads.html,， 下 载 Windows 版 本 的 安装 可 执行 文件 即 可 ， 注 意 应 下 载 Latest stable version 对 应 的 软件 包 。Windows 版 本 的 安装 可 执行 文 
件 通常 命名 格式 为 : 产品 名 称 + 平 台 名 称 +CPU 型 号 + 版 本 号 。 以 Matplotlib 为 例 ， 打 开 其 下 载 页 面 ， 如 图 2-1 所 示 。 


Downloads 


1.3.0 — Latest stable version 


matplotlib-1.3.0.tar.gz 





matnplotlib-1.3.0.win-amd64-pvy2.65.exe 
matplotlib-1.3.0.win-amd64-pvy2.7.exe 
matplotlib-1.3.0.win-amd64-pyvy3.2.exe 















matplotlib-1.3.0.win32-pv2./.exe 
matnplotlib-1.3.0.win32-pv3.2.exe 
matplotlib-1.3.0.win32-pv3.3.exe 
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假设 计算 机 的 操作 系统 是 32 位 ，Python 版 本 号 为 2.7， 则 下 载 安 装 matplotlib-1.3.0.win32-py2.7.exe， 如 果 操 作 系统 是 64 位 的 ，Python 版 本 号 为 2.7， 则 下 载 安装 matplotlib-1.3.0.win-amd64- 
ру2.7.ехе, 


在 类 UNIX 平 台 上 (以 UBUNTU 为 例 ) ， 可 使 用 下 面 的 命令 安装 Python 及 相关 科学 计算 包 .: 


sudo apt-get install python-numpy python-scipy python-matplotlib ipython ipython-notebook python-pandas python-sympy python-nose 





2. 安 装 WinPython 集 成 计算 包 


WinPython 集 成 计算 包 集成 了 Numpy 等 第 三 方 Python 科 学 计算 库 ， 在 winpython.sourceforge.net 下 载 并 安装 WinPython 后 ，Numpy 等 计算 库 和 Python 2.7 会 一 同 被 安装 。 此 外 ，WinPython 附 带 
一 款 非常 不 错 的 IDE 开 发 调试 环境 : Spyder， 如 图 2-2 所 示 是 Spyder 的 界面 截图 。 


^: й 
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—s 
П.Д OAOA ж» 55 › оа ZX 800-6 эз - 
Editor - I'Ybook progimplannliner. py ariable explorer 

[A mplannliner. py E | 

1#!/usr/bun/env python 

2#-*- coding: utf-8 -*- 

З Zemail:myhaspl(ügg.com 

4 sauthor: Xf 

5 #2013-07-25 

6import numpy as пр 

7limport math 

8import matplotlib.pyplot as plt 

9 

10 Object inspector File explorar 


11class Mplannliner: EET | — 
12 def . init (self): E. % Python 1 E] пп:пп:па [= А 


Python 2.7.5 (default, Мау 15 2013, 22:43:36) [MSC v.1588 
13 self. b=1 32 hit (Intel)] on win32 


| P i Type "help", "copyright", "credits" or "license" for more 
14 se LT . a0-0 a 1 information. 


15 self. a-0.0 Imported NumPy 1.7.1, SciPy 8.12.8, Matplotlib 1.2.1 + gu| 
16 self.r-20.0 icc unu e E detnils. 

self.expect e-0.05 ii 

self.traincount-100 

self .testpoint-[] 





Breskpeints Console | History log 
Permissions: Rh End-of-hnes: CRLF Encoding: UTF-8 Line: 7 Column 1 Memory: 21 X 





2-2 Spyder m 


在 图 2-2 所 示 的 界面 中 ， 右 上 角 是 类 似 于 MATLAB 的 “工作 空间 ”， 可 很 方便 地 观察 和 修改 变量 (包含 多 维 数组 ) 的 值 ， 同 时 还 拥有 方便 用 户 的 智能 代码 (Call-Tips 和 Auto-Complete) 功能 ， 如 图 2-3 
所 示 。 


在 IDE 开 发 窗口 下 方 的 Console 栏 可 以 使 用 pdb (类 似 于 C 语 言 的 GDB 调 试 工具 ) 调试 Python 代码 ， 也 可 以 通过 Spyder 的 调试 菜单 进行 调试 。 下 面 是 pdb 调试 工具 的 使 用 帮助 : 








>>> debugfile(r'K:Woook progNzxecf.py', wdir=r'K:\book prog') 
> k:\book progNzxecf.py(7)<module> () Е 
-> import matplotlib.pyplot as plt 
(pdb) help 





~ 









































Documented commands (type help <topic>): 

EOF bt cont enable jump pp run unt 

a с continue exit l q S until 
alias cl d h list quit step up 
args Clear debug help n r tbreak w 

b commands disable ignore next restart u whatis 
break condition down j p return | unalias where 


7 import matplotlib.pyplot as 
Ex 11,273,313, 5, 12; HT] 
9 y -[3,5,8,5,12,26,20] 
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.1500 32 bit (Intel)] on win32 
more information. 


+ guidata 1. 6. 1, guiqwt 2.3.0 





图 2-3 智能 代码 功能 
常用 的 pdb 调试 命令 如 下 : 
- hfelp): 打印 当前 版 本 pdb 可 用 的 命令 。 
: disable/enable: 禁用 /启用 断 点 。 
- n(ex): 让 程序 运行 下 一 行 。 
© c(ont(inue)): 让 程序 正常 运行 ， 直 到 遇 到 断 点 。 
: jump): 让 程序 跳 转 到 指定 的 行 数 。 
` b(reak): 设置 断 点 ， 例 如 “b23”， 就 是 在 当前 脚本 的 23 行 打上 断 点 ， 函 数 名 也 可 作为 参数 。 


: condition: 设置 条 件 断 点 。 下 面 语句 就 是 对 第 5 个 断 点 加 上 条 件 x>=8: 





(Pdb) condition 5 x>=8 





 cl(ea) : 清除 指定 参数 的 断 点 或 所 有 断 点 。 


“р: 打印 某 个 变量 。 比 如 : 





(Pdb) p file 
u’ ./pic/dog.jpg' 








0b: 感叹 号 后 面 跟着 语句 ， 可 以 直接 改变 某 个 变量 。 
' quit): 退出 调试 。 
综 上 所 述 ， 在 Spyder 的 帮助 下 ， 能 更 高 效 地 开发 与 调试 Python 代 码 ， 因 此 笔者 推荐 在 开发 环境 中 安装 WinPython， 方 便 快捷 ， 有 利于 机 器 学 习 算 法 代码 的 编写 。 此 外 ， 安 装 好 WinPython 后 ， 请 在 


windows 操 作 系 统 的 “开始 一 程序 一 WinPython 一 WinPython Control Panel” 中 进行 注册 。 


2.2.2 ”OpenCV 安 装 与 配置 


OpenCV 是 Intel 开 源 计算 机 视觉 库 ， 它 由 一 系列 C 遂 数 和 少量 C++ 类 构成 ， 实 现 了 图 像 处 理 和 计算 机 视觉 方面 的 很 多 通用 算法 。OpenCV 拥 有 包括 300 多 个 C 函 数 的 跨 平台 的 中 高 层 APl。 它 不 依赖 于 其 
他 的 外 部 库 (尽管 也 可 以 使 用 某 些 外 部 库 ) ,对 工程 应 用 来 说 ，OpenCV 是 一 个 非常 好 的 计算 平台 ， 因 为 它 遵守 BSD 开 源 协 议 ， 对 非 商 业 应 用 和 商业 应 用 都 是 免费 。 


OpenCV 的 主要 功能 有 : 图 像 数 据 操作 ， 图 像 /视频 的 输入 输出 ， 矩 阵 /向 量 数据 操作 及 线性 代数 运算 ,支持 多 种 动态 数据 结构 、 基 本 图 像 处 理 、 结 构 分 析 、 摄 像 头 定 标 、 运 动 分 析 、 目 标识 别 、 基 本 的 
GUI 和 图 像 标注 。 而 且 ，OpenCV 提 供 了 官方 的 Python 接 口 ， 其 使 用 方法 和 C 语 言 接 口 基本 一 致 ， 只 是 一 些 函 数 和 结构 体 可 能 会 有 不 同 。 另 外 ， 消 数 通 过 参数 来 返回 值 时 一 次 会 返回 多 个 值 。 


在 Windows 上 下 载 安装 OpenCV 的 可 执行 文件 后 可 直接 运行 ， 下 载 页 面 为 http://opencv.org/downloads.html。 
其 在 Linux 平 台 上 的 安装 方式 在 OpenCV 官 网 上 有 介绍 ， 有 具体 安装 顺序 如 下 : 


1) 安装 基本 软件 包 。GCC 4.4.x 或 更 高 版 本 、CMake 或 更 高 版 本 、Git、GTK+2.x 或 更 高 版 本 、including headers(libgtk2.0-dev)、pkgconfig、Python 2.6 或 更 高 版 本 、Numpy 1.5 或 更 高 版 本 、 
python-dev、python-numpy、ffmpeg 或 libav 开 发 包 、ibavcodec-dev、libavformat-dev、libswscale-dev。 


2) 安装 可 选 软件 包 。libdc13942.x、libjpeg-dev、libpng-dev、libtiff-dev、libjasper-dev.。 


3) 在 http://opencv.org/downloads.htm 下 载 其 源 代码 ， 解 压 后 ， 进 入 目录 以 源 代码 编译 方式 安装 OpenCV。 





$cd ~/орепсу 

Smkdir release 

$cd release 

$cmake -D CMAKE BUILD TYPE-RELEASE -D CMAKE INSTALL PREFIX-/usr/local http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/. 
Smake 
$sudo make install 







































































OpenCyV 官 方 提 供 了 Python 绑 定 库 ， 以 Python2.7 为 例 讲 述 了 安装 绑 定 库 的 方法 ， 在 Windows 下 ， 将 它 复 制 到 Python 的 目录 下 ， 将 opencwbuildq\pythonN2.7 下 的 cv2.pyd 文 件 复制 到 python- 
2.7.5\LibNsite-packages 目 录 下 即 可 。 在 Linux 下 安装 了 Python 后 ， 要 确保 uswWlib/python2.7/site-packages 下 有 cv.py 和 cv2.so 文 件 ， 如 果 没 有 ， 将 这 两 个 文件 复制 过 来 即 可 。 


2.2.3 mlpy 安 装 与 配置 

mlpy 是 基于 NumPy/sciPy 和 GsL 构 建 的 Python 模块 ， 它 提供 了 高 层 国 数 和 类 ， 人 允许 使 用 少量 代码 来 完成 复杂 的 分 类 、 特 征 提取 、 回 归 、 聚 类 等 任务 。mply 为 免费 软件 ， 建 立 在 GPL3 开 源 协议 之 上 。 
mlpy 在 Windows 下 的 安装 方式 较 简单 ， 可 以 直接 在 下 面 网 址 下 载 可 执行 文件 安装 : 
http: / /soutceforge.net/projects/mlpy/files/ 

在 类 Linux 平 台 上 ， 其 安装 方法 稍稍 复杂 一 些 ， 以 Linux、OSX 和 FreeBSD 为 例 ， 安 装配 置 m|py， 需 要 先 安装 配置 好 以 下 软件 : 

- GCC 

“Python 且 版 本 >=2.6 或 为 3.X 

: NumPy 且 版 本 >=1.3.0 

· SciPy 且 版 本 >=0.7.0 

GSL 且 版 本 >=1.11 


然后 ， 在 上 面 网 址 中 找到 mlpy 源 代码 包 下 载 ， 并 解压 安装 。 假 设 GSL 头 文件 和 库 文 件 没有 安装 在 系统 的 标准 位 置 ， 在 这 种 情况 下 ，mply 的 安装 方式 如 下 : 


Spython setup.py build ext --include-dirs-/path/to/header --rpath-/path/to/lib 
S$python setup.py install 








如 果 GsL 安 装 在 标准 位 置 ， 则 只 需要 运行 上 述 命令 中 的 最 后 一 行 。 


2.24 _ BeautifulSoup 安 装 与 配置 


BeautifulSoup 是 用 Python 写 的 一 个 HTML/XML 的 解析 器 ， 它 可 以 很 好 地 处 理 不 规范 标记 ， 并 生成 剖析 树 ， 通 常用 来 分 析 “ 拒 虫 ” 抓 取 的 Web 文 档 , 或 者 直接 充当 部 分 “有 息 虫 ”的 角色 。 对 于 不 规则 的 
HTML 文 档 ， 有 补 全 功能 。 有 了 它 ， 解 析 与 分 类 网 页 就 方便 多 了 ， 节 省 了 开发 者 的 很 多 时 间 和 精力 。 


安装 BeautifulSoup 很 简单 ， 在 Windows 平 台 和 Linux 平 台 上 都 是 使 用 的 传统 第 三 方 库 安装 方式 。 首 先 下 载 BbeautifulSoup 源 码 ， 其 官网 为 : http://www.crummy.com/software/BeautifulSoup/。 
然后 解压 后 运行 以 下 命令 : 


python setup.py install 


此 外 ， 在 UBUNTU 下 还 可 以 使 用 系统 包 管 理 器 安装 。 


$ apt-get install Python-bs4 


2.25 Neurolab 安 装 与 配置 


NeuroLab 是 一 个 简单 而 强大 的 、 用 Python 编写 的 神经 网 络 库 ， 包 括 基 础 神经 网 络 、 训 练 算法 ， 并 具有 弹性 的 构架 ， 可 创建 其 他 网 络 ， 它 用 纯 Python 和 numpy 写 成 。API 的 使 用 与 MATLAB 的 神经 网 络 
工具 箱 类 似 ， 具 有 弹性 的 网 络 配置 和 学 习 算 法 ， 可 以 改变 神经 网 络 和 学 习 算 法 的 类 型 、 训 练 、 误 差 、 初 始 函 数 和 激活 函数 等 神经 网 络 参 数 。 


Windows 和 Linux 下 的 安装 方式 如 下 。 
首先 在 下 面 的 页 面 下 载 Neurolab : 


http://code.google.com/p/neurolab/downloads/list 
然后 解压 后 运行 如 下 命令 : 


python setup.py install 


2.2.6”R 安 装 与 配置 
R 的 原始 码 可 自由 下 载 使 用 ， 也 有 已 编译 的 执行 档 版 本 可 以 下 载 ， 可 在 多 种 平台 下 运行 ， 包 括 类 UNIX (包含 FreeBSD 和 Linux) 、Windows 和 MacOs。 
WINDOWS 安 装 方式 如 下 。 
首先 访问 其 官网 下 载 页 面 : 
http://ftp.ctex.org/mirrors/CRAN/ 
然后 下 载 安 装 可 执行 文件 安装 即 可 。 


UBUNTU 下 的 安装 方式 如 下 : 





sudo apt-get update 
sudo apt-get install r-base 
sudo apt-get install r-base-dev 











uy Uy (Uy 
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“不 要 重复 造 轮子 " (Stop Trying to Reinvent the Wheel) ， 这 可 能 是 每 个 软件 工程 师 入 行 时 被 告知 的 第 一 条 准则 。 在 轮子 适合 “机 器 学 习 ” 这 台 车 的 情况 下 ， 机 器 学 习 算 法 才能 跑 得 更 好 ， 适 合 的 


科学 计算 平台 就 是 机 器 学 习 的 “轮子 ”。 
笔者 认为 ， 作 为 机 器 学 习 这 驾 马 车 的 “轮子 ”应 该 具备 以 下 特征 : 
. 开源 免费 ， 且 开源 协议 友好 ， 例 如 : LGPL 协 议 或 BSD 协 议 ， 这 样 更 有 利于 商业 应 用 。 
` 平台 有 文档 ， 接 口 规范 ， 能 实际 代码 用 例 最 好 。 
. 配置 简单 灵活 ， 支 持 的 操作 系统 平台 多 ， 运 行 速度 快 。 
“ 代码 结构 清晰 、 简 单 ， 便 于 使 用 者 修改 这 个 “轮子 ”， 通 俗 地 说 : 移植 性 强 。 
本 书 采 用 的 计算 平台 在 本 章 都 一 一 列 出 其 安装 和 配置 方法 。 算 法 是 一 种 计算 思维 的 描述 ， 万 变 不 离 其 宗 ， 好 的 工具 原理 都 差不多 。 


也 许 随 着 时 间 的 推移 ， 算 法 在 改进 ， 更 好 的 “轮子 ”将 出 现 ， 所 以 不 一 定 采 用 本 书 上 所 写 的 这 些 平 台 作 为 机 器 学 习 实 验 和 应 用 的 工具 ， 但 有 一 条 原则 : 功能 强大 的 计算 平台 不 一 定 适合 所 有 的 工程 ， 一 
切 以 适用 为 准 。 


二 部 分 “基础 篇 


DZK, EFTER; 九 层 之 台 ， 起 于 累 土 ) 千里 之 行 ， 始 于 足下 。 


一 一 老子 


第 3 草 ”计算 平台 应 用 实例 


3.1 ”Python 计算 平台 简介 及 应 用 实例 


目前 ， 科 学 计算 平台 很 多 ， 在 本 书 中 ， 使 用 Python 编写 的 机 器 学 习 算 法 用 到 的 计算 平台 有 : Numpy 等 科学 计算 包 、OpenCVv 的 Python 绑 定 库 、mlpy 机 器 学 习 库 、BeautifulSoup 网 页 解析 库 、 
Neurolab 神 经 网 络 库 等 ， 所 有 平台 均 为 开源 免费 软件 。 本 章 将 讲解 这 些 计算 平台 的 操作 ， 并 解析 一 些 基础 实例 应 用 。 


3.1.1 “Python 语言 基础 


1989 年 圣诞 节 期 间 ， 吉 多 . 范 罗 苏 姆 为 了 打发 假日 时 间 ， 决 心 开发 一 个 新 的 脚本 解释 程序 ， 作 为 ABC 语言 的 一 种 继承 ， 就 这 样 ，Python 在 吉 多 手中 诞生 了 。Python 的 设计 哲学 是 优雅 、 明 确 、 简 单 。 
Python 提供 了 丰富 的 API 和 工具 ， 使 程序 员 能 使 用 C 语 言 、C++、Cython 编 写 扩充 模块 。 Python 编译 器 本 身 也 可 以 被 集成 到 其 他 需要 脚本 语言 的 程序 中 。 此 外 ， 很 多 人 把 Python 作为 一 种 “胶水 语言 ”使 
用 ， 用 它 将 其 他 语言 编写 的 程序 进行 集成 和 封装 。 

Python 包 含 了 一 组 完善 而 且 容 易 理 解 的 标准 库 ， 能 够 轻松 地 完成 很 多 常见 的 任务 ， 且 代码 语法 简洁 、 清 晰 ， 使 用 缩 进 定 义 语句 块 ， 具 备 很 高 的 可 读 性 。 由 于 Python 语 言 具有 简洁 、 易 读 以 及 可 扩展 
性 ， 在 国内 外 用 Python 做 科学 计算 的 研究 机 构 、 商 业 公司 日 益 增 多 ， 比 如 : 三 大 经 典 科学 计算 库 Numpy、sciPy 和 matplotlib 均 扩展 了 Python， 通 过 Python 可 以 轻松 完成 快速 数组 处 理 、 数 值 运算 和 绘图 
任务 。 


1.Python 基 本 数据 类 型 


Python 是 解释 运行 的 动态 语言 ， 解 释 器 的 提示 符 为 “> > >”。Python 的 基本 数据 类 型 包括 数字 型 、 字 符 串 型 和 列表 ， 此 外 还 可 以 用 类 型 表示 函数 、 模 块 、 类 型 本 身 、 对 象 的 方法 、 编 译 后 的 Python 代 


码 、 运 行 时 信息 等 。 


1) 数字 型 ， 可 将 Python 作为 一 个 计算 器 使 用 ， 在 计算 过 程 中 可 使 用 “+” (加 ) "" QE). "" (Ge. / (8). "C. 7)" EUR A (BOR) 等 操作 符 。 此 外 ，Python 
用 “# ”表示 其 后 的 内 容 是 注释 。 下 面 代码 演示 了 其 基本 的 计算 功能 和 注释 的 使 用 。 


>>> 2+2 

4 

>>> d 本 行 是 注释 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 2+8 




















>>> (50-5*6)/2 
10 





Python 使 用 “=” 进 行 赋值 操作 ， 赋 值 操作 不 会 返回 任何 结果 ， 也 可 以 在 同一 行 中 连接 赋值 ， 赋 值 语句 将 从 右 到 左 依次 完成 赋值 。 下 面 的 代码 对 变量 进行 复数 和 实数 的 赋值 。 


>>> c-5.2-6.5j4HHE AL ж 

>>> с 

(5.2-6,57) 

>>> c.realidHH X 

Sez 

>>> c.imagt## E 3g 
5 





>>>х = y = z = 0 
变量 在 使 用 前 ， 要 处 于 定义 状态 〈 即 已 经 赋值 ) ， 否 则 会 出 错 。 下 面 代 码 试图 对 未 定义 的 变量 myx 进 行 操作 结果 出 错 了 。 


>>> пух 4 访问 未 定义 的 变量 

Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 

NameError: name 'myx' is not defined 


— 











在 Python 计算 中 可 使 用 浮 点 数 。 如 果 在 计算 过 程 中 出 现 了 浮 点 数 ， 则 整 型 会 自动 转换 为 浮 点 型 计算 ; 如 果 全 是 整 型 ， 则 计算 结果 也 为 整 型 。 在 下 面 例子 中 ， 第 一 行 代码 两 个 操作 数 均 为 整 型 ， 返 回 的 结 
果 并 不 会 精确 为 整 型 ， 而 在 第 二 行 代码 中 ， 第 一 个 操作 数 7.0 为 浮 点 型 ， 返 回 的 结果 为 浮 点 数 。 (以 下 代码 请 在 Python 解释 器 下 运行 ) 。 


>>> 7/3 

2 

>>> 7.0/3 
2.3333333333333335 


复数 运算 使 用 (real+imagj) 的 形式 ， 也 可 使 用 complex(real，imag) 创 建 一 个 复数 对 象 ， 其 中 real 表 示 实 部 ，imag 表 示 虚 部 。 下 面 是 一 些 复数 计算 的 例子 。 


(2-63) 

>>> 1j * сопр1ех (0, 1) 

(-1+03) 

>>> 341j*3 

(3+3) 
>>> a-1.540.5j 








>>> a.imag 


变量 "OC" 表示 刚 计算 的 结果 。 下 面 代 码 通过 计算 (3+2) x6 演 示 了 该 变量 的 使 用 。 


2) 字符 串 型 。Python 的 字符 串通 常用 单 引 号 和 双 引 号 包围 的 形式 表示 ， 通 过 print 语 句 可 将 字符 串 输出 到 输出 设备 中 (默认 情况 下 输出 到 屏幕 ) 。 此 外 ，Python 2.0 及 以 后 的 版 本 支持 Unicode 字 符 
串 ， 中 文字 符 一 般 使 用 Unicode 编 码 (国际 组 织 制 定 的 容纳 世界 所 有 文字 和 符号 的 字符 编码 方案 ， 用 0~0x10FFFF 映 射 字符 ， 最 多 可 以 容纳 1114112 个 字符 ) ， 在 前 面 加 u 表 示 后 面 是 Unicode 字 符 串 。 下 面 
的 代码 演示 了 Unicode 字 符 的 定义 与 使 用 、 字 符 串 的 输出 等 操作 。 


>>> 'spam eggs' 


'spam eggs' 

>>> '"Yes, " he said.' 
'"Yes, " he said.' 

>>> print u" 你 好 "你 好 

>>> print u" 机 器 学 习 " 机 器 学 习 





Python 的 字符 串 可 视 为 列表 (数组 )， 使 用 “[ 索 引 ]” 的 方式 能 对 它 


>>> word = 'Help' + 'A' 

>>> word 

'HelpA' 

>>> '«' + word*5 + '»' 
'«HelpAHelpAHelpAHelpAHelpA»' 











>>> word[-2:] # 最 后 2 个 字符 

'pA' 

»»» word[:-2] # 除 去 最 后 2 个 字符 以 
'Hel' 


外 的 字符 


Python 的 字符 串 可 使 用 转 义 字符 ， 方 法 是 在 特殊 字符 前 加 上 人 ^\”。 主 要 的 转 义 字符 有 : 


v #515 

V 双 引 号 

\а 发 出 系统 响 铃 声 

Vb ЈА 

\п 换行 符 

\t ”横向 制 表 符 

\у 纵向 制 表 符 

\г 回 车 符 

V RE 

NA 

\о ”八进制 数 代表 的 字符 
\х 十 六 进 制 数 代表 的 字符 
\000 ”终止 符 ，\000 后 的 字符 串 全 部 忽略 


此 外 ，Python 的 字符 串 相 比 其 他 程序 语言 


>>> 'doesnV't' 

"doesn't" 

>>> "N"Yes, N" he said." 
'"Yes, " he said.' 


进行 切片 操作 (索引 从 0 开始 ) ， 使 用 “+” 可 对 字符 串 进行 连接 。 下 面 的 代码 演示 了 字符 串 的 连接 、 切 片 等 操作 。 


多 了 一 种 摘 述 方式 ， 就 是 用 3 个 引号 标示 字符 串 ， 其 功能 是 将 字符 串 内 容 原样 输出 ， 如 果 字 符 串 本 身 包括 换行 ， 则 输出 换行 ， 如 果 包 括 特殊 字符 ， 则 字符 串 无 
需 使 用 转 义 字符 。 下 面 的 代码 演示 了 中 文字 符 串 的 输出 、 转 义 字符 的 使 用 、 字 符 串 切 片 、 统 计 长 度 、 三 引号 使 用 等 操作 。 


>>> print u" 你 好 ，Python\n 机 器 学 习 " 你 好 ，Python 机 器 学 习 


>>> print u"""4rXf, Python 





http: //www.hzcourse.com/resource/readl 














>>> mystr- u" 你 好 ，Python\n 机 器 学 习 " 
>>> print mystr 你 好 ，Python 机 器 学 习 
>>> print mystr[:5] 你 好 ，Py 

>>> print mystr[3:5] 

















>>> len (mystr) ###1еп ЖЯ EA B KE 
14 





BPS/Text/... 机 器 学 习 """ 你 好 ，Python 机 器 学 习 
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Python 字符 串 的 三 引号 表示 方式 意义 重大 ， 用 它 可 以 在 CGI (CGI 允许 Web 服 务 器 执行 外 部 程序 ， 并 将 它们 的 输出 发 送 给 Web 浏 览 器 ) 程序 中 轻松 输出 HTML 人 代码。 下 面 是 CGI 的 “Hello World” 程 
序 : 


#!/usr/bin/env python 

print "Content-Type: text/html" 
print 
print """chtml» 
«body» 
«h2»Hello World!«/h2» 
</body> 

</html> 











3) 列表 。Python 可 将 不 同类 型 (包括 复合 类 型 本 身 ) 的 值 组 成 复合 类 型 ， 列 表 就 是 复合 类 型 之 一 。 与 字符 串 相同 ， 列 表 可 以 使 用 切片 操作 ， 其 索引 也 是 从 0 开始 的 。 此 外 ， 统 计 列 表 的 长 度 使 用 len 函 
使 用 “*” 将 生成 新 列表 ， 其 元 素 由 源 列表 重复 填充 ， 使 用 “+” 可 和 连接 列表 。 下 面 的 代码 演示 了 列表 的 定义 、 连 接 、 重 复 填充 、 切 片 、 统 计 长 度 等 操作 . 


Wk 


>>> а = ['hello', 'world', 100, 1234] 





['hello', 'world', 100, 1234] 
>>> a[:2] + ['-', 2*2]### 连 接 列表 
['hello', 'world', '-', 4] 
>>> mylist-[1, 23, 45] 























[1 5] 

>>> mylist*21HHb * 4 X A p| £ 
[1, 23, 45, 1, 23, 45] 
>>> mylist[:2]####|] Жл А 


























>>> x = [12, 13] 
>>> у = [11, x, 14] 
>>> len (y) ### 求 列表 长 度 





— 





列表 和 字符 串 也 可 称 为 序列 ， 序 列 由 若干 个 元 素 组 成 ， 每 个 元 素 的 先后 顺序 明确 ， 不 能 更 改 。 
2.Pythoni&$] 


1) 条 件 语句 。if 语 句 的 作用 是 判断 条 件 是 否 成 立 ， 如 果 成 立 ， 则 执行 后 面 的 语句 块 ; ifhttp;//www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...elifhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...elif 语 句 可 用 于 对 多 个 条 件 进行 判断 ， 并 执行 最 先 满足 条 件 的 语句 块 ; else 语 句 表示 所 有 条 件 都 不 成 立时 执行 。 下 面 的 例子 展 
示 了 if 语句 的 使 用 方法 ， 功 能 是 对 输入 数字 的 范围 进行 判断 ， 并 将 其 中 的 负数 转变 为 0。 


>>> х = int(raw input("Please enter an integer: ")) 

Please enter an integer: -10 

>>> if х < 0: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/i 

http: //www.hzcourse.com/resource/readBook?path-/openresources/i 

http: //www.hzcourse.com/resource/readBook?path-/openresources/i 

http: //www.hzcourse.com/resource/readBook?path-/openresources/i 

http: //www.hzcourse.com/resource/readBook?path-/openresources/i 

http: //www.hzcourse.com/resource/readBook?path-/openresources/i 

http: //www.hzcourse.com/resource/readBook?path-/openresources/i 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print 'More' 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/. 
N 
h 
h 
h 
h 
h 
h 
h 
h 














ach ebook/uncompressed/15753/OEBPS/Text/... x = 0 

each ebook/uncompressed/15753/OEBPS/Text/... print 'Negative changed to zero' 
ach ebook/uncompressed/15753/OEBPS/Text/... elif x == 0: 
each ebook/uncompressed/15753/OEBPS/Text/... print 'Zero' 
ach ebook/uncompressed/15753/OEBPS/Text/... elif x == 1: 













































































each ebook/uncompressed/15753/OEBPS/Text/... print 'Single' 
ach ebook/uncompressed/15753/OEBPS/Text/... else: 








FOX CT CX CT Ч € 












































egative changed to zero 下 面 例子 演示 了 判断 非 奇 偶数 。 
ttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... for x іп range(1, 10): 

ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... if x $2 == 0: 

ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print x, '15 an even number'. 
ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 
ttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... else: 

ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 4 loop fell through without finding a factor 
ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print x, '15 an odd number.' 

ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

2 is an even number 

3 is an odd number 

4 is an even number 

5 is an odd number 

6 is an even number 

7 is an odd number 

8 is an even number 

9 is an odd number 




























































































































































































2) 循环 语句 。for 语 句 表 示 循 环 ， 它 与 C 语 言 中 的 for 语 句 略 有 不 同 。(C 语 言 的 for 语 句 可 定义 步 长 和 终止 循环 条 件 ， 而 Python 的 for 语 句 在 Python 的 序列 (列表 、 字 符 串 等 ) RAR, SEXHIERHI— 
项 。 下 面 的 代码 在 单词 列表 中 迭代 ， 每 次 友 代 输出 单词 及 其 长 度 。 


>>> 4 Measure some strings: 




































































http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... words = ['cat', "'window', "'hello'] 
>>> for w in words: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print w, len(w) 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

cat 

window 6 

hello 5 


taa] LUE EKE. ААУ ЕУЕН 71848, 





>>>words = ['cat', 'window', 'defenestrate'] 
>>> for м in words[:]: 







































































http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... if len(w) » 6: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... words.insert(0, w) 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

>>> words ü 

['defenestrate', 'cat', 'window', 'defenestrate'] 








3) гапдер& 9, fori& to (WBetEP E RUrRgRGIETS, Маа ЕЖ, CHCES oA RA, ALAA, £ Г гапдера& %, Иши Нога ЕА, гапоеёв ЈН 
律 的 列表 等 序列 。 下 面 代 码 产生 0~9 共 10 个 数字 ， 增 长 步 长 为 1。 


>>> range (10) 
[0s Tš -2y 3 ds 5» бз Za € 9] 


range 函 数 还 可 以 产生 更 复杂 的 序列 ， 常 用 调用 格式 为 : 


range (起 始 值 ， 终 止 值 ， 步 长 ) 


其 中 起 始 值 和 步 长 可 以 省 略 ， 起 始 值 默认 为 0， 步 长 默认 为 1。 


>>> range(5, 10) 

[9 Gy T, 8, 9] 

>>> range(0, 10, 3) 

[0; 3, б„ 9] 

>>> range(-10, -100, -30) 
[-10, -40, -70] 





下 面 的 代码 是 range 函 数 与 for 语 句 组 合 的 应 用 ， 输 出 列表 元 素 的 索引 及 值 。 



























































>>> а = ['Mary', 'had', 'a', 'little', 'lamb'] 

>>> for i in range (Іеп (а)) : 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print i, а[і] 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

0 Mary 

1 had 

2а 

3 little 

4 lamb 





下 面 的 代码 完成 1 至 10 中 奇数 的 累加 。 


>>> mysum=0 

>>> for i in range(1, 10, 2): 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... mysum=mysum+i 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

>>> mysum 

25 



























































4) break 与 continue。break 语 句 结束 本 层 循 环 ，continue 语 句 忽略 下 面 的 语句 继续 本 层 的 下 次 循环 。 下 面 的 代码 使 用 break 语 句 ， 查 找 2 至 10 以 内 (不 含 10) 的 素数 ， 如 果 不 是 素数 ， 则 分 解 因数 。 









































































































































>>> for n in range(2, 10): 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... for x in range(2, n): 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... if n $ x == 0: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print n, 'equals', x, '*', n/x 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... break 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... if п==х+1: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 4 loop fell through without finding a factor 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print n, 'is a prime number' 





























2 is a prime number 
3 is a prime number 
4 equals 2 * 2 
5 is a prime number 
6 equals 2 * 3 
7 is a prime number 
8 equals 2 * 4 
9 equals 3 * 3 





下 面 的 代码 使 用 了 continue 语 句 ， 判 断 50 至 60 之 间 的 数 哪些 是 奇数 ， 哪 些 是 偶数 。 






















































































>>> for num in range(50, 60) : 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... if num $ 2 == 0: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print "192", num 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... continue 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print "34K", num 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...4&4k 50 奇 数 51 偶 数 52 奇 数 53 偶 数 54930 55 偶 数 56+] Җ 57 偶 数 58-р 59 











5) while 循 环 。 在 while 循 环 中 会 一 直 执 行 后 面 的 语句 块 ， 直 到 条 件 不 满足 才 终 止 。 下 面 的 代码 用 于 在 列表 中 循环 ， 并 输出 元 素 。 




















>>> a-range (10) 
i-0 
>>> while i«10: 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print a[i], 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... i=i+1 






































[0 1, 2, 3, 4, 5, 6, 7, 8, 9] 


6) 函数 定义 。Python 使 用 def 关 键 字 定 义 函 数 。 下 面 的 代码 定义 了 屏幕 输出 函数 show ， 参 数 是 要 输出 的 内 容 。 





>>> def show (mess-"hello"): 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print mess 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

>>> show() 

hello 

>>> show (" 机 器 学 习 ") 机 器 学 习 





















































下 面 的 代码 定义 了 斐 波 那 契 数列 的 计算 函数 fib。 




















































































































>>> def fib(n): 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... """Print a Fibonacci series up to n.""" 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... a, р= 0, 1 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... while a < n: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print a, 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... a, b =b, atb 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

>>> fib(2000) 

0112358132134 55 89 144 233 377 610 987 1597 


3.Python 的 元 组 、 集 合 以 及 字典 


1) tuple 元 组 。tuple 元 组 类 似 列表 ， 不 同 的 是 它 的 内 容 不 能 修改 。Python 元 组 的 定义 方式 是 使 用 圆 括号 包含 元 素 或 直接 列举 元 素 。 下 面 的 代码 将 定义 x 为 元 组 类 型 ， 当 对 x[0] (x 的 第 一 个 元 素 ) 进行 修 
改 时 ，Python 解 释 器 提示 错误 。 





20 
>>> x3 
'learn 


>>> x[0]-90 














Traceback (most recent call last): 

File "«stdin»", line 1, in «module» 
TypeError: 'tuple' object does not support item assignment 
>>> 


2) Sets. 


元 素 。 























Python 使 用 方 括号 定义 Sets 集 合 ， 集 合 


9 特点 是 无 重复 元 素 ， 集 合 中 的 元 素 无 先后 顺序 ， 也 不 能 用 索引 





进行 管理 。 下 面 的 代码 定义 了 一 个 水 果 列 表 ， 通 过 set 冰 数 转换 为 集合 ， 去 除 重复 


>>> basket = ['apple', ''orange', 'apple', 'pear', ''orange',  'banana'] 

>>> fruit = set (basket) 

>>> fruit 

set(['orange', 'pear', 'apple', ''banana']) 

下 面 的 代码 通过 in 操作 检查 成 员 与 集合 的 关系 。 

>>> 'orange' in fruit #1225 SA DX M 'orange' 

True 

>>> 'crabgrass' in fruitHHHk 4 XX &# X. M ' crabgrass ' 

False 

既然 是 集合 ， 当 然 能 对 它 进行 集合 的 数学 运算 。Python 集 合 支 持 union (联合 或 并 ) . intersection ( 交 ) . difference ( 差 ) 和 sysmmetric difference (对 称 差 ) 等 操作 ， 可 通过 "- . “|. 


а. "A" 操作 符 计算 集合 的 差 集 、 并 集 、 交 集 和 对 称 差 集 。 下 面 的 代码 演示 了 对 集合 a 和 b 的 运算 。 


Cn 
(D 
Ct 


>>> а 


о 
(D 
ct 


>>> а 


о 
(D 
Ct 








>> а 


>M An 一 10 





3) Dictionaries-z B&, 


set('abracadabra') 

set('alacazam') 

n UE s "ts LOT 'gd']1) 

b #2 

e "а", 'b']) 

b # 并 集 

ets er "ат "Б": "Тт, "ut "I"T 

b # 交集 
rar) 

b # 对 称 差 集 
Ets Tas dou 'm', Vigot s "1']) 


Dictionaries (字典 ) 是 一 种 散 列 结构 ， 可 理解 为 Hash ( 散 列 ) 


类 型 。 


是 键 ， 键 在 字典 中 必须 保持 唯一 ， 字 典 与 列表 和 元 组 不 同 ， 列 表 和 元 组 属于 序列 ， 元 素 以 先后 顺序 来 管理 ， 而 字典 的 元 素 是 以 键 为 单位 对 值 进 


同 。 


Python 使 用 花 括 号 定义 字典 ， 使 用 类 似 索 引 的 方式 存 取 值 ， 但 索引 


以 及 如 何 对 学 生 信息 进行 删除 、 查 询 等 操作 。 





























>>> tel = ('ikz': 4098, '#Æw': 4139) 
>>> tel 
{'\ха5\хс5\хс8\хїа': 4098, '\хс0\хее\хср\хс4!': 4139} 
>>> tel[' 张 三 "] 
4098 
>>> del tel[' 张 三 "] 
>>> tel[' 张 三 "] 
Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
KeyError: '\xd5\xc5\xc8\xfd' 
>>> tel.keys() 
["\хсО0\хее\хср\хс4'!] 
>>> tel['£41&']-1000 
>>> tel.keys() 
["\хса\х#5\хрр\хаа', '\хс0\хее\хср\хс4!] 
>>> print tel.keys()[0] 216 





上 面 代 码 中 ，“\xcd” 等 为 汉字 在 Python 内 部 的 编码 。 
4.Python 类 


Python 语 言 有 强大 的 面向 对 象 编程 能 力 。Python 和 C++ 等 语言 一 样 拥有 类 机 制 ，Python 类 的 定义 方式 如 下 : 


class 


下 面 的 代码 定义 了 一 个 复数 类 Complex， 同 时 定义 了 类 的 实例 变量 x， 


KZ: 
ŽARN XE 
变量 A=A 初 始 值 
变量 B=B 初 始 值 














http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/0E 





# 下 面 定 义 了 类 成 员 有 函数 
def init (self, 
# 2840 v 2k 














http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0l 








def del (self): 


СЕЕ 





http://www.hzcourse .com/resource/readi 





žl, AX2, http://www.hzcourse.com/resource/readl 


=й 





























def 方法 1 (self, 
# 类 的 方法 





http: //www.hzcourse.com/resource/readl 
































http: //www.hzcourse.com/resource/readi 


>>> class Complex: 








tp://www.hzcourse. 





tp://www.hzcourse. 








tp://www.hzcourse. 








h 
h 
h 
h 
h 





tp://www.hzcourse. 














>>> X = 
>>> X.T, 
(3.0, 





tp://www.hzcourse. 

Complex (3.0, 
x.i 

=A) 


-4.5) 


5.Python 异 常 处理 


com/resource/readBook?path=/openresources/! 
com/resource/readBook?path=/openresources/! 
com/resource/readBook?path=/openresources/! 
com/resource/readBook?path=/openresources/! 
com/resource/readBook?path=/openresources/! 








E 


最 后 输出 该 变量 的 实 部 和 虚 部 。Complex 类 很 





teach ebook/uncompressed/] 





teach ebook/uncompressed/]1 
teach ebook/uncompressed/] 





teach ebook/uncompressed/1 

















teach ebook/uncompressed/1 


Book?path-/openresources/teach ebook/uncompressed/15753/0E 


кя 














[5753/О 
[5753/О 


ВР5/Техі 
ВР5/Техі 





5753/0! 


ВР5/Техі 





5753/01 


ВР5/Техі 








15753/0Е 








ВР5/Техі 





ЕВРЅ/Техі 


Book?path-/openresources/teach ebook/uncompressed/15753/0l 
A1, А362, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/] 





€ 


Book?path-/openresources/teach ebook/uncompressed/15753/0E 

















A 


IB 


t/... 
Ee 
EZ s 


为 键 。 此 外 ， 可 使 用 del 操 作 删 除 键 值 对 ， 使 用 Keys() 方 法 返回 字 


А 


ЕОР 
NS 


EBPS/Text/..ht 





行 管 


Book?path-/openresources/teach ebook/uncompressed/15753/0E 





жя 


典 变量 存储 的 所 有 键 。 下 面 的 代码 





字典 由 若干 个 键 值 对 组 成 ， 键 值 对 是 一 种 映射 ， 一 个 键 对 应 于 一 个 值 。 键 值 对 由 两 个 部 分 组 成 ， 第 一 部 分 
理 的 ; 第 二 部 分 为 值 ， 值 与 键 一 一 对 应 ， 值 可 以 彼此 相 


演示 了 一 个 学 生 学 号 的 字典 变量 ， 


BPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/tee 


























0 

0 

f init (self, 
self.r = realpari 
self.i = imagpar 








realpart, 








ее. 





BPS/Text/..., Жп): 





t/..http://www.hzcourse.com/resource/readBook?path-/openresources/teac 











tp: / /www .hzcourse.com/resource/readBook?path-/openresour 
15753/OEBPS/Text/..., Жп): 





BPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources 




















BPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/tee 


单 ， 在 类 构造 函数 中 对 实 部 成 员 和 虚 部 成 员 进 行 赋值 。 


imagpart): 


Python 的 异常 处 理 能 力 很 强大 ， 可 准确 反馈 出 错 信息 。 在 Python 中 ， 异 常 是 对 象 ， 可 对 它 进 行 操作 。 所 有 异常 都 是 基 类 Exception 的 成 员 ， 从 基 类 Exception 继 承 ， 在 exceptions 模 块 中 定义 。Python 
异常 处 理 的 格式 如 下 : 


try : 

ETEA v] SE Z IEEE 09 45 6] He 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/te 
except 异常 类 型 : 

下 面 为 处 理 异 常 的 语句 块 


# 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/te 




























































































下 面 的 代码 将 检查 输入 是 否 为 有 效 数 字 。 程 序 通过 将 输入 转换 成 整 型 来 测试 是 否 为 数字 ， 如 果 不 是 数字 ，int 国 数 将 触发 异常 ValueError， 异 常 处 理 程序 提示 “ 哦 ! 输入 不 是 有 效 数字 ， 请 重新 输入 
(Oops!That was no valid number.Try againhttp://www.hzcourse.com/resource/readBook?path -/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..) " ， 直 到 输入 正确 格式 
的 数字 后 ， 程 序 才 退 出 。 


>>> while True: 








































































































http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... try: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. х = int(raw input("Please enter a number: ")) 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. break 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... except ValueError: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print "Oops! That was no valid number. Try againhttp://www 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 


前 面 演示 了 异常 的 被 动 触发 ，Python 还 能 主动 触 帮 异常 ， 处 理 方式 为 : 先 通 过 raise 语 句 抛 出 异常 ， 然 后 用 except 捕 捉 异 常 。 下 面 的 代码 演示 raise 主 动 抛 出 NameError 异 常 后 被 捕捉 ,输出 “An 
exception flew by!” 后 ， 继 续 抛 出 异常 ， 以 便 给 更 外 层 的 异常 处 理 函 数 继续 处 理 。 


>>> try: 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OF 








BPS/Text/... raise NameError('HiThere') 































































































http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... except NameError: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print 'An exception flew by!' 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... raise 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 





An exception flew by! 

Traceback (most recent call last): 
File "«stdin»", line 2, in? 

NameError: HiThere 











以 上 简要 介绍 了 Python 编程 语言 的 基本 语法 ， 它 和 C+ + 有 几 分 相似 ， 有 一 定编 程 基础 的 读者 应 该 都 能 看 懂 。Python 是 一 门 上 手 很 快 的 编程 语言 ， 它 与 其 他 语言 最 大 的 不 同 就 是 它 区 分 语句 块 时 使 用 的 
不 是 括号 ， 而 是 每 行 语句 前 面 的 空格 数量 。 因 此 ，Python 代 码 非 常 工整 和 漂亮 ， 它 严格 遵守 代码 语句 块 的 缩 进 原 则 ， 可 依靠 缩 进 判断 语句 块 的 范围 。 


3.1.2 Numpy 库 
本 书 中 介绍 的 机 器 学 习 算 法 大 部 分 是 调用 Numpy 库 来 完成 基础 数值 计算 的 。 下 面 了 解 一 下 umpy 库 的 基本 使 用 方法 。 
1.ndarray 数 组 基础 


Python 中 用 列表 保存 一 组 值 ， 可 将 列表 当成 数组 使 用 。 此 外 ，Python 有 array 模 块 ， 但 它 不 支持 多 维 数组 ， 无 论 是 列表 还 是 array 模 块 都 没有 科学 运算 函数 ， 不 适合 做 矩阵 等 科学 计算 。 因 此 ，Numpy 
没有 使 用 Python 本 身 的 数组 机 制 ， 而 是 提供 了 ndarray 数 组 对 象 ， 该 对 象 不 但 能 方便 地 存 取 数 组 ， 而 且 拥有 丰富 的 数组 计算 函数 ， 比 如 向 量 的 加 法 、 减 法 、 乘 法 等 。 


使 用 ndarray 数 组 ， 首 先 需 要 导入 Numpy 函 数 库 ， 可 以 直接 导入 该 函数 库 (本 节 频 繁 使 用 Numpy 库 的 浮 数 ， 因 此 采用 这 种 方法 ) 。 





from numpy import * 
或 者 指定 导入 库 的 别名 。 
import numpy as np 


下 面 正 式 进入 Numpy 的 数组 世界 。 如 果 没 有 说 明 ， 所 称 数 组 均 为 Numpy 的 数组 对 象 ， 与 Python 的 列表 和 array 模 块 无 关 。 


1) 创建 数组 。 创 建 数组 是 进行 数组 计算 的 先决 条 件 ， 可 通过 array() 函 数 定义 数组 实例 对 象 ， 其 参数 为 Python 的 序列 对 象 (比如 列表 ) 。 如 果 想 定义 多 维 数组 ， 则 传递 多 层 庶 套 的 序列 。 例 如 下 面 这 条 
语句 定义 了 一 个 二 维 数组 ， 其 大 小 为 (2，3) ， 即 共有 2 行 ， 每 行 各 3 列 。 


а —mnp.array([[ Ty 7 0.14 bL 22.54 1.4 2.11) 


上 面 语 句 定 义 了 如 表 3-1 所 示 的 数组 。 


表 3-1 二 维 数 组 结构 


: 


) 
N 
N 


JS sEFgarray0b82%6lJgE— (2, 3) 大 小 的 数组 变量 x。 





>>> from numpy import * 
>>> x-array([[ 1., 0., 0.1], [ 0., 1., 2.11) 


以 刚才 定义 的 x 变量 为 例 ， 来 熟悉 ndarray 数 组 对 象 的 主要 属性 。ndarray 数 组 对 象 拥有 ndarray.ndim、ndarray.shape、ndarray.size、ndarray.dtype、ndarray.itemsize、ndarray.data 等 属性 。 


ndarray.ndim: 数组 的 维度 数 。 


>>> x.ndim 
2 


ndarray.shape: 数组 的 维 数 ， 返 回 的 格式 为 (n，m) ， 其 中 m 为 行 数 ，m 为 列 数 。 


>>> x.shape 
(2, 3) 


ndarray.size: 数组 元 素 的 总 数 。 


>>> x.size 
6 


ndarray.dtype: 数组 元 素 的 类 型 ， 比 如 : numpy.int32 (32 位 整 型 ) 、numpy.int16 (16 位 整 型 ) 及 numpy.float64 (64 位 浮 点 型 ) 。 


>>> x.dtype 
dtype('float64') 





ndarray.itemsize: 数组 中 每 个 元 素 占 有 的 字 节 大 小 。 


>>> x.itemsize 
8 


ndarray.data: 数组 元 素 的 缓冲 区 。 


>>> x.data 
«read-write buffer for Ox0557EAE8, size 48, offset 0 at 0х0561ВАЕ0> 





















































下 面 是 一 个 关于 Numpy 的 ndarray 数 组 的 例子 ， 演 示 了 ndarray 数 组 的 基本 操作 。 


首先 ， 创 建 a 和 b 两 个 数组 对 象 。 其 中 ，a 对 象 使 用 Numpy 的 arange 函 数 产生 了 等 差 序 列 数组 (Numpy 的 arange 函 数 与 Python 的 range 函 数 类 似 ， 其 参数 依次 为 开始 值 、 结 束 值 、 步 长 ) ， 并 用 
reshape 函 数 创 建 了 指定 形状 的 新 数组 。a 的 大 小 为 (3, 5); b 的 大 小 为 (1，3) 。 


>>> a = arange (15) .reshape (3, 5) 

>>> a 

array([[ 0, 1i 2, 3 4], 

> 6, da 8, 9], 

[10, 11, 12; 13; 14]]) 

>>> b = array([6, 7, 8]) 

>>> b 

аггау([6, 7, 8]) 











接着 读 取 a 和 b 的 主要 属性 ， 如 : shape, ndim, dtype, itemsize%š, Уһ, БААУ л f іурера& НЕН, type ÁAK А295, Х)-Ғпааггаух 2, RSS 7jnumpy.ndarray, 


>>> a.shape 

(3, 5) 

>>> a.ndim 

2 

>>> a.dtype.name 
'int32' 
>>> a.itemsize 
4 

>>> a.size 

15 

>>> type (а) 
numpy.ndarray 
>>> type (b) 
numpy.ndarray 








最 后 ， 对 a 和 b 对 象 重新 赋值 ， 以 便 进 一 步 了 解 ndarray 数 组 的 元 素 类 型 。 下 面 分 别 演示 了 int32、float64 等 类 型 的 使 用 方法 ， 最 后 演示 了 不 常见 的 复数 作为 数组 元 素 (数组 c 的 元 素 ) 的 情况 。 


>>> а = array( [2, 3, 4] ) 

>>> a 

array([2, 3, 4]) 

>>> a.dtype 

dtype ('int32'!) 

>>> р = array([1.2, 3.5, 5.1]) 











>>> b.dtype 

dtype ('float64') 

>>> с = array( [ [1, 2], [3, 4] ], atype-complex ) 
>>> с 


array([[ 1.*0.j, 2.+0.]], 
[ 3.40.3, | 4.40.3]]) 








2) 特殊 数组 。Numpy 的 特殊 数组 主要 有 以 下 几 种 : 
` Zeros 数 组 : 全 堆 数 组 ， 元 素 全 为 0， 使 用 zefos 函 数 创建 。 
ones 数组 : 全 1 数组 ， 元 素 全 为 1， 使 用 ones 函 数 创 建 。 
:empty 数组 : 空 数组 ， 元 素 全 近似 为 0， 使 用 empty 函 数 创建 。 


下 面 的 代码 依次 演示 了 全 零 数 组 、 全 1 数组 、 空 数组 的 创建 方法 。 


>>> zeros( (3, 4 



























































) 
array([[0., Dios Org 015 
[0., 0., 0.5 0.15 
[0., 0., 0., 0.11) 
>>> ones( (2, 3, 4), dtype-intl16 ) 
array([[[ 1, 1, 1, 1], 
[ 15 b * 1], 
[ 1, s ? Lll; 
[LL 1, Бе. Б» 
[ 15 b 7 Lp 
[ 1, х. 1, lll], dtype-intlo) 
>>> empty( (5, 3) ) 
array([[ 1.42185083е-299, 1.41906197e-299, 5.77420410е-300], 
[ 6.02082633e-300, 1.41971817е-299, 5.77379398е-300], 
[ 5.77440917e-300, 5.77386233Зе-300, 5.77440917е-300], 
[ 5.77386233e-300, 5.77440917е-300, 5.77386233е-300], 
[ 1.42130399e-299, 5.77440917е-300, 5.771406740e-300] 1) 














3) РУ А. ЮЛЫ ЕН arange, e PythonfSrangeERSZIRI/Z,, (E'ei-T NumpyeRAUEE, АРЗА. fásRÍB. ЖК. ШК, И 8іпѕрасера 652578, Нз 
分 别 为 起 始 值 、 终 止 值 、 元 素数 量 。 下 面 的 代码 分 别 演示 了 arange 函 数 和 |inspace 遂 数 的 用 法 。 


>>> arange( 10, 30, 5) 
array([10, 15, 20, 2 
>>> arange( 0, 2, 0.3 
array([ O. , 0.35 0 


>>> linspace( 0, 2, 9) # 从 0 到 2，9 个 数字 
array([ O, 4 0.25, 0.5. 4 Üv 75; le a 1.293 145 1.75, Z« 1) 
>>> х = linspace( 0, 2*pi, 100) # 从 0 到 2*pi 共 100 个 数字 








4) 输出 数组 。 可 使 用 print 输 出 Numpy 的 数组 对 象 。 下 面 的 代码 是 一 维 数组 的 创建 和 输出 。 


>>> a = arange (6) # 一 维 数组 
>>> print a 
[0123 4 5] 


下 面 的 代码 是 二 维 数组 的 创建 和 输出 ， 从 输出 结果 可 清晰 地 看 出 b 的 大 小 为 (4，3) . 


>>> b = arange (12) .reshape (4, 3) # 二 维 数组 
>>> print b 
[[O 1 2] 


5) 数组 索引 。Numpy 数 组 的 每 个 元 素 、 每 行 元 素 、 每 列 元 素 都 可 以 用 索引 访问 ， 不 过 要 注意 索引 是 从 0 开始 的 。 比 如 ， 某 数组 大 小 为 (2，3) ， 则 第 2 行 第 1 列 元 素 的 索引 是 [1，0]。 下 面 以 三 维 数组 为 
例 ， 演 示 数 组 的 创建 、 输 出 及 索引 。 


首先 创建 三 维 数组 <， 并 输出 其 元 素 。 





>>> c = arange (24) .reshape (2, 3, 4) # 三 维 数组 
>>> print c 


DET 























三 维 数组 < 可 表示 为 如 图 3-1 所 示 的 形式 。 


E S 


[0,2.: 


[1.0.:] [1.1.:] 


[1.2.: 





[au | 5 | 4 _ | 7 | gs | :9 | 20 | 21 | 2 | 3 — 


图 3-1 中 单元 格 上 方 标注 了 [0，0，:]、[0，1，:] 等 索引 ， 索 引 中 的 “:” 表 示 该 维度 内 的 所 有 元 素 。 对 照 图 3-1， 查 找 索引 [1 ， 


为 [20，21，22，23] 和 6。 下 面 编写 代码 验证 一 下 。 





>>> print c[1, 2, :] 
[20 21 22 23] 

>>> print c[0, 1, 2] 
6 





6) 数组 运算 。 数 组 的 加 减 乘 除 以 及 乘 方 运算 方式 为 ， 相 应 位 置 的 元 素 分 别 进 行 计算 。 比 如 : 

数组 加 法 : array([20, 31, 42, 53])-array([20, 30, 40, 50])+аггау([0, 1, 2, 3]) 

数组 减法 : array([20, 29, 38, 47])-array([20, 30, 40, 50])-аггау([0, 1, 2, 3]) 

数组 乘法 : array([[2, 0], [0, 41) =аггау(11, 1], [O, 1]p*array([[2, 0], [3, 4) 

数组 乘 方 : аггау([0, 1, 2, 3])89%7 =аггау([0, 1, 4, 9) 

数组 除法 : array([20., 15., 13.33333333, 12.5])=аггау([20, 30, 40, 50])/аггау([1, 2, 3, 4]) 


下 面 的 代码 演示 了 数组 的 加 、 减 、 乘 、 除 及 更 多 运算 (关键 代码 处 注释 了 运算 类 型 ) 。 


>>> a = array( [20, 30, 40, 50] ) 

>>> aa = arange(1, 5) 

>>> a/aa### 除 法 

array([ 20. А 15. ; 13.33333333, 12.5 1) 
>>> 

>>> b = arange( 4 ) 

>>> b 

array ([0, 3]) 

>>> с = а- pH AD 

>>> c 
array([20, 29, 38, 47]) 

>>> р**2####7 

array([0, 1, 4, 9]) 

>>> 10xsin(a HAR, sin 函数 为 正弦 函数 











array([ 9. 12945251. -9.88031624, 7.4511316 , -2.062374854]) 
>>> a«351HHH8 Ж AH 断后 生成 相应 的 布尔 数组 

array([True, True, False, False], Gtype-bool) 

>>> A = array ( Е 1]; IO 111] j 

>>> B = array( [[2, 0], [3, 4]] ) 





>>> Ax*B### 乘 法 
array([[2, 0], 
[0, 4]]) 
>>> #aqot 表 示 乘 积 。 对 一 维 数组 计算 的 是 点 积 ， 对 二 维 数组 计算 的 是 矩阵 乘积 





















































array([[5, 4], 





, 4]]) 

>>> a = ones((2, 3), qtype=int)###ones 函 数 创 建 全 1 数组 ， 指 定 元 素 类 型 为 int 
>>> b = random.random((2, 3))###%@)# 28, 38 E Xo (2, 3) 

>>> a *= 3### 数 乘 


>>> a 

array([[3, 3, 3], 
[3, 34. 311) 

>>> b += a### 加 法 

>>> b 


array([[ 3.69092703, 3.8324276 , 3.0114541 ], 


http: //www.hzcourse. com/resource/readBook?pat ch-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 


PULA + ЖЕТЕ Xf 


dot (A, B) 


2，:] 处 (第 2 行 第 3 列 ) 的 所 有 元 素 和 索引 [0，1 ， 


2] 处 的 元 素 ， 可 得 出 元 素 


>>> а += 
>>> а 
array([ 


>>> a = 
>>> а 
аггау([[ 





[ 3.18679111, 


р #0 


16, 6, 6], 
[6, 6, 6]]) 


3.3039349 , 


random.random((2, 3)) 


0.6903007 , 


[ 0.48819875, 


>>> a.sum()4HH dfe 


3.455237 
>>> a.mi 
0.165247 
>>> a.ma 
0.947921 





2100521485 


0.39168346, 
0.77188505, 





n () ### 求 最 小 值 


68654743593 





x () ### 求 最 大 值 


5542670073 


3.37600289]]) 


0.16524769], 
0.94792155]]) 


7) 数组 的 拷贝 。 数 组 的 拷贝 分 为 浅 拷贝 和 深 拷贝 两 种 ， 浅 拷贝 通过 数组 变量 的 赋值 完成 ， 深 拷贝 使 用 数组 对 象 的 copy 方 法 。 


浅 拷 贝 只 拷贝 数组 的 引用 ， 如 果 对 拷贝 进行 修改 ， 源 数组 也 将 修改 。 下 面 的 代码 演示 了 浅 拷 贝 的 方法 。 


>>> a-ones((2, 3)) 


>>> a 


array([[ 1 


INTO Ts J. 
>>> Db=a###b 为 a 的 浅 拷贝 


>>> b[1 
>>> a 


$ 


array([[ 1 


>>> b 
array([ 





1 | 


е9 кй 











1.]3 





2]=2 


9 = 


= 
. 
— 








.5 .5 


е9: C. 














°з ый, 


Non 


深 拷贝 会 复制 一 份 和 源 数组 一 样 的 数组 ， 新 数组 与 源 数组 不 会 存放 在 同一 内 存 位 置 中 ， 因 此 ， 对 新 数组 的 修改 不 会 影响 源 数组 。 下 面 的 代码 演示 了 b 使 用 copy 方 法 从 源 数组 a 复 制 一 份 拷贝 的 情况 。 可 以 
看 到 ， 修 改 b 后 ，a 仍 然 不 变 。 


>>> a-ones((2, 3)) 


>>> b = 
>>> b[1, 
>>> a 


array([[ 1., Ts 
[ 


>>> b 


array([[ 1., Ts 
E 5 


2. 矩 阵 


a.copy () 
2]=2 








ый. ый. 

















.5 .5 


1) ВЈ, Митру БЕ RERA, SESEARISLZABET, ХЕРТА КАМИЕ, iBESERjmatrixeSZX8UEE, LA (2, 2) 大 小 的 矩阵 (247230) 为 例 ， 可 用 以 下 两 种 方 


式 定 义 参数 : 


第 1 行 第 1 列 元 素 第 1 行 第 2 列 元 素 ; 第 2 行 第 1 列 元 素 第 2 行 第 2 列 元 素 ' 


[[ 第 1 行 第 1 列 元 素 ， 第 1 行 第 2 列 元 素 ]，[ 第 2 行 第 1 列 元 素 ， 第 2 行 第 2 列 元 素 ]] 


下 面 的 代码 演示 了 和 矩 阵 的 创建 及 类 型 查询 方法 。 


>>> А = matrix('1.0 2.0; 3.0 4.0') 非 ## 和 矩阵 入 





>>> A 
LE Te 2] 
[ 3. 4.]] 
>>> B = matrix([[1.0, 2.0], 
>>> B 
matrix([ А. 





«class 


2) BEBE E, 








1 » 
БР 





[ 
[ 4.1] 
>>> type (А) # 查询 A 


'numpy.mai 


) 
变量 的 类 型 
trixlib.de! 





[3.0, 4.0] ]) ###F4E B 


tmatrix.matrix'» 








>>> A.T 
LE 1. 3] 

[ 24. 4:1] 
>>> X = matrix('5.0 
>>> Ү = Х.Т 
>>> Y 

[[5.] 

[7.1] 
>>> print A*Y 
[[19.] 

[43.]] 
>>> print A.I 
[[-2. Test 

[ 1.5 905.5] 
>>> solve(A, Y) 
matrix([[-3.], 





[ 4.11) 


# 转 置 


7-09) 
# 转 置 


TAE FE IA: 


dif ABE 


# 解 线性 方程 组 


Qua 关于 Numpy 及 其 函数 的 更 多 信 


和 矩阵 的 党 用 数学 运算 有 转 置 、 乘 法 、 求 逆 等 。 下 面 的 代码 演示 了 和 矩 阵 的 基本 运算 (请 


息 可 查阅 Numpy 官 网 : 


http:/ /wiki.scipy.org/Numpy. Example List 


3.1.3 pylab、matplotlib 绘 图 


导入 numpy 库 再 执行 以 下 代码 ) 。 


为 了 验证 算法 的 有 效 性 ， 机 器 学 习 通 常 需要 进行 绘图 ，pylab、matplotlib 等 模块 是 专业 的 Python 绘图 模块 。 


1.sin 函 数 绘 制 


在 二 维 坐标 系 中 绘图 的 基本 方式 是 使 用 plot 方 法 ， 其 参数 分 别 为 x 轴 数值 、y 轴 数值 ， 这 里 的 数值 可 以 是 单个 数 也 可 以 是 Numpy 的 一 维 数组 对 象 。 下 面 的 代码 演示 了 sin 函 数 图 像 的 绘制 。 





x = np. 
p 


t numpy as np 
t matplotlib.pyplot as plt 
arange(0, 5, 


sin (х) 


0.1); 


plt.plot(x, y) 


如 图 3-2 所 示 为 Sin 函数 图 像 效 果 图 ， 从 效果 图 上 观察 ， 曲 线 清 晰 ， 坐 标 系 的 标尺 根据 绘制 参数 已 进行 自动 调整 。 


2.cosER 2] 


ТАУКЕ ВрІої555 5 ]соѕ ZEE. 


import numpy as np 
import matplotlib.pyplot as plt 
х = np.arange(0, 5, 0.1); 

y = np.cos (х) 

plt.plot(x, у) 

plt.show() 





绘图 效果 如 图 3- 3 所 示 。 





图 3-2 sini k 18% ЖЕ 





























£ O O + Z m E 





图 3-3 cos 函数 图 像 效 果 图 


ЕЭ 2^. 


进一步 扩充 图 3-3 所 示 cos 函 数 绘 制 范 围 ， 将 自 变 量 x 的 范围 扩大 到 [-8，8]， 三 角 遂 数 cos 图 像 的 周期 性 一 目 了 然 ， 如 图 3-4 所 示 。 下 面 是 绘制 代码 。 





import numpy as np 

import matplotlib.pyplot as plt 
х = np.arange(-8, 8, 0.1); 

у = np.cos (х) 

plt.plot(x, у) 

plt.show() 











图 3-4 cos 函数 周期 图 像 





图 3-5 ”树叶 写真 








数字 图 像 是 指 将 二 维 图 像 用 有 限 数 字 的 数值 像素 表示 ， 像 素 表面 上 看 起 来 不 像 分 离 的 点 ， 但 实质 它们 就 是 点 。 例 如 ， 图 3-5 所 示 的 树叶 写真 就 是 由 很 多 像素 点 组 成 的 ， 但 用 肉眼 无 法 观察 到 像素 点 的 存 
ft. 

我 们 使 用 一 款 取 像 素 的 软件 对 图 3-5 进 行 分 析 ， 如 图 3-6 所 示 。 可 以 看 到 ， 线 的 十 字 交 叉 处 就 是 一 个 像素 点 ， 软 件 显示 ， 在 图 像 的 [459，530] 处 像素 点 的 值 为 (64，77，67) 。 中 间 是 放大 的 这 部 分 图 片 
区 域 ， 放 大 后 ， 图 像 仿佛 由 一 个 个 小 的 颗粒 组 成 ， 将 这 些 颗 粒 进 一 步 放 大 ， 就 能 看 到 颗粒 是 由 若干 个 像素 点 组 成 ， 如 果 将 图 像 完全 放大 ， 就 能 看 清 每 个 像素 点 的 存在 了 。 

(64, 77, 67) 就 是 图 3-6 中 某 点 的 像素 值 。 每 个 像素 点 可 有 各 自 的 颜色 值 ， 可 采用 三 原色 显示 ， 因 而 又 分 成 红 、 绿 、 蓝 三 个 子 像素 (RGB 色 域 ) ， 或 者 青 、 品 红 、 黄 和 黑 (CMYK 色 域 ) ， 通 常 计 算 


机 的 图 像 采用 的 像素 标准 为 红 、 绿 、 蓝 三 个 子 色 。 图 3-6 所 示 十 字 交 又 处 的 像素 值 含义 为 : 红色 值 为 64， 绿 色 值 为 77， 蓝 色 值 为 67。 






[459, 530] 
B4, TT, BT 





图 3-6 ”树叶 放大 的 颗粒 效果 ( 附 彩 图 ) 


分 辨 率 是 度量 图 像 内 数据 量 多 少 的 一 个 参数 ， 通 常 表示 成 每 英寸 像素 数 和 每 区 寸 点 数 。 分 辨 率 越 高 ， 图 像 包 含 的 数据 越 多 ， 就 越 能 表现 更 丰富 的 细节 ， 图 形 文件 就 越 大 。 从 图 3-7 能 较 直观 地 看 出 这 个 效 
果 ， 随 着 分 辩 率 的 增加 ， 字 母 R 越 来 越 清 晰 。 


10x10 20x20 50x50 100x100 


1x1 2x2 





图 3-7 ”及 字母 在 不 同 分 辨 率 下 的 效果 


2.0penCVv 的 Python 绑 定 库 实例 


假设 图 像 的 分 辨 率 为 800x600， 则 每 一 条 水 平 线 上 包含 有 800 个 像素 点 ， 共 有 600 条 线 ， 在 计算 机 中 可 以 使 用 一 个 800 列 600 行 的 数组 来 表示 该 图 像 。 数 组 的 每 个 元 素 就 是 一 个 像素 点 ， 比 如 ， 第 100 行 
200 列 的 元 素 就 是 图 像 的 第 100 条 水 平 线 第 200 个 像素 点 的 像素 值 。 那 么 如 何 提取 图 像 中 的 像素 值 呢 ? 


可 以 使 用 OpenCV 的 Python 绑 定 库 完 成 这 些 操作 。OpenCV 作 为 跨 平台 的 计算 机 视觉 库 ， 拥 有 包括 500 多 个 跨 平台 图 像 处 理 的 中 、 高 层 API， 对 图 像 像 素 的 读 写 自然 不 在 话 下 。 


使 用 OpenCV 函 数 库 之 前 ， 需 要 先导 入 其 Python 绑 定 库 。 


import cv2 





OpenCV 函 数 对 像素 点 的 读 写 操 作 可 理解 为 对 图 像 和 矩阵 的 存 取 ，OpenCV 图 像 和 矩阵 中 每 个 像素 点 的 值 由 蓝 色 值 、 绿 色 值 、 红 色 值 3 个 部 分 组 成 ， 三 色 值 组 合成 一 个 一 维 数组 。 假 设 A 图 像 的 高 度 ( 行 数 ) 
JH, WÈ ( 列 数 ) 为 NW， 则 A 图 像 对 应 的 图 像 和 矩阵 大 小 为 HxWx3，A 图 像 和 矩阵 可 表示 H 行 W 列 ( 共 HxW 个 ) 像素 点 的 组 合 。 


如 果 想 读 取 A 图 像 150 行 20 列 处 的 像素 值 ( 设 A 的 图 像 矩阵 变量 为 img_a) ， 可 进行 如 下 访问 : 





img a[150, 20, :] 


下 面 的 代码 中 第 1 行 是 150 行 20 列 处 像素 的 蓝 色 值 ， 第 2 行 是 150 行 20 列 处 像素 的 绿色 值 ， 第 3 行 是 150 行 20 列 处 像素 的 红色 值 。 





blue-img a[150, 20, 0] 
green-img a[150, 20, 1] 


red-img a[150, 20, 2] 





下 面 以 几 个 经 典 实 例 演示 OpenCV 的 Python 绑 定 库 的 使 用 方法 。 


1) 显示 图 像 。 程 序 原理 是 ， 首 先 使 用 mread (文件 名 ) 读 取 图 像 文 件 ， 生 成 图 像 和 矩阵， 然后 调用 imshow 方 法 显示 图 像 ， 调 用 waitKey() 方 法 等 待 按键 ， 最 后 调用 destroyAllWindows() 销 毁 窗 口 ， 这 样 
可 方便 查看 图 像 。 


f!/usr/bin/env python 

#3-1.ру 

import cv2 

fne"testl.jpg" 

if name == ' main ': 
print 'http://blog.csdn.net/myhaspl' 
print 'myhasplqq.com' 























print 

print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 
img = cv2.imread (fn) 

cv2.imshow('preview', img) 


Cv2.waitKey () 
Cv2.destroyAllWindows () 





效果 如 3-8 所 示 。 


2) 随机 生成 像素 。 程 序 的 原理 是 ， 首 先 产 生 空 图 像 和 矩阵 ， 然 后 确定 矩阵 的 2000 个 随机 位 置 ， 最 后 将 随机 位 置 处 的 像素 值 设置 为 随机 数 数 组 。 下 面 是 源 代码 。 





f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
# 随 机 生成 像素 点 

#3-2 .py 

# 导 入 numpy 和 opencv 函 数 库 
import numpy as np 
import cv2 





























Lf name == ' main ': 

HTA 

521 = 200 

t0) X 

sz2 = 300 

print u') Æ = JEFE (Sd*$d) http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ (szl, 572) 
#P Ж W EB, Хо 200521522 ( 行 数 * 列 数 ) ， 本 程序 为 200*300 

img -np.zeros((szl, sz2, 3), np.uint8) 


posi-np.random.randint(200, size-(2000, 1))###{т1# Ж а.н 

pos2-np.random.randint(300, size-(2000, 1))###7# # ан 

# 在 随机 位 置 处 设置 像素 点 值 

for i in range (2000): 
img[posl[i], pos2[i], [0] 1=0р.гапаот.гапаіпі (0, 255) 
img[posl[i], pos2[i], [1] 1=пр.гапаот.гапаіпі (0, 255) 
img[posl[i], pos2[i], [2]]^np.random.randint(0, 255) 

# 显 示 图 像 

cv2.imshow('preview', img) 

# 等 待 按键 

Cv2.waitKey () 

Te 

CVv2.destroyAllWindows () 




















图 3-8 ”显示 图 像 


随机 产生 像素 点 后 ， 创 建新 窗口 并 显示 含 彩色 雪花 点 的 图 像 ， 运 行 以 上 代码 : 





产生 空 图像 矩 阵 (200*300) http://www.hzcourse.com/resource/readi 





BPS/Text/... 








效果 如 3-9 所 示 。 


Book?path-/openresources/teach ebook/uncompressed/15753/OEl 


8 preview 








图 3-9 ”随机 产生 若干 像素 点 〈 附 彩 图 ) 


3) 获取 图 像 大 小 。 程 序 通 过 图 像 和 矩阵 的 shape 属 性 获取 图 像 大 小 ，shape 返 回 tuple 元 组 ， 元 组 的 第 1 个 元 素 为 高 度 ， 第 2 个 元 素 为 宽度 ， 第 3 个 元 素 为 3 (像素 值 由 三 原色 组 成 ) 。 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#3-3.ру 
import cv2 
import numpy as np 
fn-"test2.jpg" 
if name == ' main ': 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
img = cv2.imread (fn) 
асу Еа 
sp=img. shape 
print sp 
szl=sp[0] 
# 宽 度 ， 即 列 数 
sz2-sp[1] 
print 'width:$dWMnheight:£d'$(sz2, 521) 
































оо 
T 
B 














运行 效果 如 下 ， 程 序 返 回 图 像 的 高 为 435， 宽 为 656。 











loading testl.jpg http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 
(435, 656, 3) 

width:656 

height:435 











4) 调节 图 像 亮度 。 调 节 的 原理 是 ， 将 像素 值 变 小 ， 则 将 亮度 调 小 ， 全 部 色彩 变 蜡 ; 将 像素 值 变 大 ， 则 将 亮度 调 大 ， 全 部 色彩 变 亮 。 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#3-4.ру 
import cv2 
import numpy as np 
fn-"testl.jpg" 
if name == ' main ': 
t 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
print u' 正 在 处 理 中 '， 
img = cv2.imread(fn) 
w-img.shape[1] 
h-img.shape[0] 
ii-0 
# 将 全 部 色彩 变 瞳 
for xi in xrange (0, w): 





























оо 
T 
B 




















for xj in xrange (0, h): 
# 将 像素 值 整 体 减 少 ， 设 为 原 像素 值 的 20% 


img[xj, xi, 0 

img[xj, xi, 1 

img[xj, xi, 2 
# 显 示 进 度 条 
if х1510==0 :print '.' 
cv2.namedWindow ('img') 
cv2.imshow('img', img) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 


int(img[xj, xi, 0]*0.2) 
int(img[xj, xi, 1]*0.2) 
int(img[xj, xi, 2]*0.2) 


LL uua 





> 





print'' 

print u' 正 在 处 理 中 ' , 

# 将 全 部 色彩 变 这 

for xi in xrange (0, w): 

for xj in xrange (0, h): 
# 将 像素 值 整 体 增加 ， 设 为 原 像 素 值 的 1020% 
img[xj, xi, 0]= int(img[xj, xi, 0]*10.2) 
img[xj, xi, 1]= int(img[xj, xi, 1]*10.2) 
img[xj, xi, 2]= int(img[xj, xi, 2]*10.2) 














if xi$10--0 :print '.', 
# 显 示 图 像 
cv2.namedWindow ('img') 
cv2.imshow('img', img) 


Cv2.waitKey () 
Cv2.destroyAllWindows () 








上 面 程序 将 图 像 每 个 像素 值 减 少 ， 实 现 图 像 亮 度 变 暗 的 效果 ， 如 图 3-10 所 示 。 然 后 每 个 像素 值 增 大 ， 实 现 图 像 亮度 变 亮 的 效果 。 


如 图 3-11 所 示 为 图 像 变 亮 效果 ， 因 为 像素 值 过 大 ， 已 经 出 现 失真 现象 。 





图 3-10 图像 变 暗 (ШЖ) 


5) 图 像 日 落 效 果 。 日 落 效 果 的 生成 原理 很 简单 ， 将 蓝 色 值 和 绿色 值 设 为 原来 的 70%， 红 色 值 不 变 ， 设 图 像 和 矩阵 为 Img。 代 码 如 下 : 


# 生 成 日 落 效 果 


for xi in xrange (0, w): 





for xj in xrange (0, h): 
img[xj, xi, 0]= int(img[xj, хі, 0]*0.7)###%W ë 4 79 3 89 70$ 
img[xj, хі, 1]= int(img[xj, xi, 1]*0.7) HH A 6,48 5 # 49 70% 


完整 代码 如 下 : 





图 像 变 亮 〈 附 彩 图 ) 











f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#3-5.ру 

import cv2 

import numpy as np 
fn2"testl.jpg" 

if name == ' main ': 

















print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/O 


print u' 正 在 处 理 中 '， 

img = су2.ітгеаа (Ёп) 

w=img .shape [1] 

h-img.shape[0] 

ii-0 

# 生 成 日 落 效果 

for xi in xrange (0, w): 

for xj in xrange (0 

img[xj, xi, 0] 
img[xj, xi, 1] 








ПІБ 





# 显 示 进 度 条 

if xi$10--0 :print '. 
# 显 示 图 像 
cv2.namedWindow ('img') 
cv2.imshow('img', img) 


Cv2.waitKey () 
Cv2.destroyAllWindows () 





运行 效果 如 图 3-12 所 示 。 





, h) 
int(img[xj, xi, 0]*0.7)3HH 3 644 73/8 3 89708; 
int 


(img[xj, xi, 1]*0.7) HHE ë 4Ë 79 f 3 89 70$ 


Y 
> 





EBPS/Text/...' 





in 





图 3-12 ”图 像 日 落 效果 ( 附 彩 图 ) 


6) 负片 与 水 印 效果 。 生 成 负片 的 原理 是 ， 将 像素 的 三 色 值 设 为 (255- 原 值 ) 。 设 图 像 和 矩阵 为 mg， 代码 如 下 : 


к = cv2.split (img) 


2А АЧ, WüFdputlTextE&Zk, LAESGOBEE/SSB T7 EA, 257821295, EERE hK. RANT : 








# 加 上 水 印 


cv2.putText (img, "machine learning", 

















(20, 20), cv2.FONT HERSHEY PLAIN, 2.0, (0, 0, 0), thickness - 2) 





cv2.putText (img, "Support Vector Machines (SVMs) 15 an algorithm ` 








of machine learning.", 











(20, 100), cv2.FONT HERSHEY PLAIN, 1.0, (0, 0, 0), thickness = 2) 





负片 与 水 印 效果 的 完整 代码 如 下 : 


#!/usr/bin/env python 





#-*- coding: utf-8 -*- 


#3-6.ру 
import cv2 
import numpy as np 
fn-"testl.jpg" 
if папе == ' 








main  ': 





print 'loading $s 
print u' 正 在 处 理 中 ' 
# 读 取 图 像 文件 





img = cv2.imread(f 


# 获 取 图 像 大 小 
w=img .shape [1] 
h-img.shape[0] 
ii-0 








http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 
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n) 


b, g, r = cv2.split (img) 


жаза 


img[:, 


img[:, : 
# 加 上 水 印 


cv2.putText (img, "machine learning", 





(20, 20), cv2.FONT HERSHEY PLAIN, thickness = 2) 


cv2.putText (img, "Support Vector Machines (SVMs)is an algorithm 








of machine learning.", 





(20, 100), cv2.FONT HERSHEY PLAIN, 1.0, (0, 0, 0), 


cv2.namedWindow ('img') 


cv2.imshow('img', 
Cv2.waitKey () 





img) 


Cv2.destroyAllWindows () 


运行 效果 如 图 3-13 所 示 。 


оо 
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图 3-13 负片 和 水 印 效果 《 附 彩 图 ) 


7) 图 像 平 铺 。 图 像 平 铺 的 原理 是 ， 首 先 计 算 平 铺 后 的 图 像 大 小 ， 生 成 同样 大 小 的 空白 图 像 ， 然 后 在 空白 图 像 中 逐个 像素 复制 图 像 ， 直 接 将 空白 图 像 像素 值 设 置 为 平 铺 后 该 位 置 对 应 的 像素 值 ， 复 制 的 顺 
序 是 逐 行 复制 ， 横 向 平 铺 5 个 图 像 ， 纵 向 平 铺 2 个 图 像 ， 最 后 显示 图 像 效果 。 下 面 是 完整 代码 : 





f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#3-7.ру 

import cv2 

import numpy as np 
fn-"test.png" 

















if name == ' main ': 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 

















print ' 正 在 处 理 中 '， 
img = cv2.imread (fn) 
w=img.shape [1] 
h-img.shape[0] 














# 横 向 平 铺 5 个 图 像 

szl=w*5 

# 纵 向 平 铺 2 个 图 像 

sz0=h*2 

# 创 建 空白 图 像 ， 然 后 将 图 片 排 列 
myimgl-np.zeros((sz0, szl, 3), np.uint8) 
# 逐 个 像素 复制 

img х=0 

img у=0 

for now y in xrange(0, sz0): 
# 增 加 行 数 





for now x in xrange (0, 521): 

# 复 制 对 应 位 置 的 图 像 像 素 点 

myimgl[now y, now x, 0]=img[img у, img x, 0] 
myimgl[now y, now x, l]-img[img y, img x, 1] 
myimgl[now y, now x, 2]-img[img y, img x, 2] 











# 增 加 列 数 
img х+=1 
if img x>=w: 
img x=0 
img у+=1 ° 
if img y»-h: 
img y-0 
print '.', 
cCv2.namedWindow ('imgl') 
cv2.imshow('imgl', myimgl) 


Cv2.waitKey () 
Cv2.destroyAllWindows () 





运行 效果 如 图 3-14 所 示 。 





图 3-14 图 像 平 铺 


8) 转 置 并 平 铺 图 像 。 与 刚才 的 例子 相似 ， 但 多 了 一 步 转 置 操作 。 转 置 的 原理 是 将 图 像 矩阵 转换 为 它 的 转 置 和 矩阵 ， 转 置 算法 是 将 新 图 像 矩 阵 [h，w] 处 的 像素 设 为 原 图 像 矩阵 [w，h] 处 的 值 (这 里 的 值 是 
一 维和 矩阵 ) ， 相 当 于 和 矩阵 转 置 的 算法 。 设 myimg1 为 图 像 和 矩阵， 编写 代码 如 下 : 





for now y in xrange(0, 520): 
for now x in xrange (0, 521): 
myimgl[now x, now y, :]-img[img y, img x, :| 








转 置 并 平 铺 图 像 完整 代码 如 下 : 





f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq.com 
#3-8.ру 

import cv2 






































import numpy as np 

fn-"test.png" 

if name == ' main ': 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 
print 'working', 





img = cv2.imread(fn) 

w=img .shape [1] 

h-img.shape[0] 

#w 为 宽度 ，h 为 高 度 

szl=w*2 

sz0=h*3 

# 创 建 空白 图 像 ， 然 后 将 图 片 排列 
myimgl-np.zeros((szl, sz0, 3), np.uint8) 
# 翻 转 并 生成 图 像 

# 逐 个 复制 像素 

img х=0 

img у=0 

for now y in xrange(0, 520): 

for now x in xrange(0, sz1): 














# 旋 转 图 像 
myimgl[now x, now y, :]-img[img y, img x, :] 
img x+=1 — i B Е 
# 新 的 一 次 平 铺 
if img x>=w: 
img x=0 
img yt-1 7 
# 新 的 一 次 平 铺 
if img y>=h: 
img y=0 
print t: 
cv2.namedWindow ('imgl') 
cv2.imshow ('img1', myimgl) 


cv2.waitKey () 
cv2.destroyAllWindows () 








运行 效果 如 图 3-15 所 示 。 





图 3-15 “图像 旋转 和 平 铺 





本 节 的 两 个 例子 是 对 上 节 内 容 精 华 的 总 结 ， 较 好 地 综合 了 OpenCV 的 基础 功能 。 





图 像 融 合 的 原理 是 ， 让 新 图 像 的 每 个 像素 成 为 两 个 源 图 像 中 对 应 像素 的 平均 值 之 和 ， 即 : 将 两 个 图 像 的 像素 值 取 50% 后 相 加 。 为 简化 计算 ， 直 接 选 取 其 中 一 个 源 图 像 作 为 新 图 像 ， 设 新 图 像 矩 阵 为 
myimg2， 编 写 代码 如 下 : 





# 每 个 像素 为 2 个 像素 的 平均 值 
for y in xrange (0, sz0): 
for x in xrange (0, sz1): 
myimg2[y, x, :]=myimg1[y, x, :]*0.5+myimg2[y, x, :]*0.5 











完整 代码 如 下 (关键 之 处 有 注释 ) : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#3-9.ру 

import cv2 

import numpy as np 

fnl-2"hel.jpg" 

fn2-2"he2.jpg" 

if name == ' main ': 
print 'working', 
myimgl = cv2.imread(fnl) 
myimg2 = cv2.imread(fn2) 
# 取 得 图 像 大 小 
w-myimgl.shape[1] 
h-myimgl.shape[0] 
Szl-w 
sz0=h 
# 每 个 像素 为 2 个 像素 的 50% 之 和 ， 进 行 图 像 融合 

for y in xrange (0, sz0): 

for x in xrange (0, sz1): 
myimg2[y, x, :l=myimglly, x, :]*0.54myimg2[y, x, :]*0.5 





























print '.', 
Cv2.namedWindow ('img2') 
cv2.imshow('img2', myimg2) 


Cv2.waitKey () 
Cv2.destroyAllWindows () 








效果 如 图 3-16 所 示 。 





图 3-16 ”图 像 融 合 


2. 图 像 镜 像 


图 像 纵向 镜像 的 原理 是 ， 首 先 获取 图 像 的 宽度 ， 将 宽度 的 50% 取 整 后 作为 图 像 的 纵向 中 线 ; 然后 以 中 线 为 轴 ， 将 图 像 左 边 反 向 复制 到 图 像 右边 ， 使 图 像 最 右边 一 列 的 像素 点 等 于 图 像 最 左边 一 列 的 像素 
点 。 比 如 ， 图 像 大 小 为 200x300 (高 200， 宽 300) ， 第 180 行 170 列 (索引 为 [180，170，:]) 的 像素 点 值 为 第 180 行 第 130 列 的 像素 点 值 (300-170=130) 。 


2 
о 


横向 镜像 与 纵向 镜像 类 似 ， 不 同 之 处 在 于 将 高 度 的 30% 取 整 后 作为 图 像 的 横向 中 线 ， 复 制 时 是 最 下 边 一 行 的 像素 点 值 等 于 最 上 边 一 行 的 像素 点 值 。 


纵向 镜像 可 按 如 下 形式 编写 代码 : 





# 纵 向 生成 镜像 
mirror w=w/2 

for j in xrange (0, h): 

for i in xrange(0, mirror w): 
img[j, EN :]-img[j, м-1-1, s] 











下 面 的 代码 演示 了 图 像 的 纵向 镜像 。 


f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#3-10.ру 

import cv2 

import numpy as np 





























if name == ' main ': 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 











print ' 正 在 处 理 中 '， 

img = cv2.imread (fn) 

w=img.shape [1] 

h=img.shape [0] 

ii-0 

# 纵 向 生成 镜像 

mirror w=w/2 

for j in xrange (0, h): 

for i in xrange (0, mirror w): 
img[j, 1, :]=img[j, w-i Е 











print "'i', 
# 显 示 图 像 
cv2.namedWindow ('img') 
cv2.imshow('img', img) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 








运行 效果 如 图 3-17 所 示 。 
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图 3-17 图 像 镜像 








3.1.6 图像 灰 度 化 与 图 像 加 品 
1. 图 像 灰 度 化 
图 像 灰 度 化 的 原理 是 ， 彩 色 图 像 中 的 每 个 像素 的 颜色 由 R、G、B 三 个 分 量 决 定 ， 而 每 个 分 量 的 取 值 范围 为 0~255。 而 灰 度 图 像 是 8R、G、B 三 个 分 量 相 同 的 一 种 特殊 的 彩色 图 像 ， 其 算法 有 以 下 两 种 : 
1) 求 出 每 个 像素 点 的 R、G、B 三 个 分 量 的 平均 值 ， 然 后 将 这 个 平均 值 赋予 给 这 个 像素 的 三 个 分 量 。 
2) 根据 RGB 和 YUV 颜 色 空间 的 变化 关系 ， 建 立 亮度 Y 与 R、G、B 三 个 颜色 分 量 的 对 应 关系 : Y=0.3R+0.59G+0.11B， 以 这 个 亮度 值 表达 图 像 的 灰 度 值 。 
OpenCV 有 相关 的 遂 数 cvtColor， 用 它 可 直接 完成 灰 度 化 操作 。 设 img 为 源 图 像 和 矩阵 ，myimg1 为 灰 度 化 后 的 目标 图 像 和 矩阵， 编写 代码 如 下 : 


# 复 制 并 转换 为 灰 度 化 图 像 
myimgl-cv2.cvtColor(img, cv2.COLOR BGR2GRAY) 





下 面 的 代码 演示 了 图 像 的 复制 与 图 像 的 灰 度 化 操作 。 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#3-11.ру 

import cv2 

import numpy as np 

fn-"test2.jpg" 

if | name == ' main ': 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 
img = cv2.imread(fn) i 
sp=img. shape 
print sp 
# 获 取 图 像 大 小 
#height 
szl=sp[0] 
#width 
sz2=sp[1] 
# 显 示 图 像 大 小 
print 'width:$dMnheight:£d'$(sz2, 521) 
# 创 建 一 个 窗口 并 显示 图 像 
CV2. ed E ү 
cv2.imshow('img' 
# 复 制图 像 矩 阵 ， 生 成 与 源 rou 图 像 ， 并 显示 
myimg2- img.copy(); 
cv2.namedWindow ('myimg2') 
cv2.imshow('myimg2', myimg2) 
# 复 制 并 转换 为 灰 度 化 图 像 ， 并 显示 
myimgl=cv2.cvtColor (img, cv2.COLOR BGR2GRAY) 
cv2.namedWindow ( 'myimo1 ') i 
cv2.imshow('myimgl', myimgl) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 





























上 面 的 代码 生成 了 与 源 图 像 一 样 的 新 图 像 ， 并 生成 了 另 一 个 源 图 像 的 灰 度 化 图 像 ， 运 行 效果 如 图 3-18 所 示 。 








图 3-18 BRKE (MA) 


现在 大 部 分 的 彩色 图 像 都 是 采用 RGB 颜色 模式 ， 处 理 图 像 的 时 候 ， 要 分 别 对 RGB 三 种 分 量 进 行 处 理 。 实 际 上 RGB 并 不 能 反映 图 像 的 形态 特征 ， 只 是 从 光学 的 原理 进行 颜色 的 调配 。 把 图 像 转换 成 8 位 的 灰 
度 值 图 像 直 接 进 行 处 理 ， 可 以 通过 直方 图 、 灰 度 变 化 及 正 交 变换 之 类 数学 运算 对 图 像 做 进一步 处 理 ， 比 如 说 图 像 识别 等 。 如 果 有 必要 ， 可 将 图 像 二 值 化 ， 这 样 有 利于 对 图 像 进一步 处 理 ， 使 图 像 数 据 量 减 
小 ， 突 显 出 感 兴趣 的 目标 的 轮廓 。 如 图 3-19 所 示 为 某 汽车 图 像 二 值 化 的 效果 。 





图 3-19 ”图 像 二 值 化 


2. 图 像 加 噪 


给 图 像 人 为 加 噪 的 原理 是 ， 将 图 像 若干 个 像素 点 的 值 设 为 噪声 点 的 值 。 比 如 ， 为 图 像 加 上 很 多 像素 值 为 [25，20，20] 的 像素 点 ， 编 写 代码 如 下 : 





for k in xrange(0, coutn): 
xi = int(np.random.uniform(0, img.shape[1])) 
xj = int(np.random.uniform(0, img.shape[0])) 























if img.ndim == 2: 
# 灰 度 图 像 
img[xj, xi] = 255 
elif img.ndim -- 


HEKER, Bhk 
img[xj, xi, 0]= 25 
img[xj, xi, 1]- 20 
img[xj, xi, 2]= 20 





上 面 的 代码 对 img.ndim 进 行 判断 的 用 意 在 于 ， 如 果 图 像 是 灰 度 化 图 像 ， 则 img.ndim 为 2， 灰 度 化 图 像 的 像素 值 不 存在 红 、 绿 、 蓝 三 色 之 分 ， 仅 有 灰 度 值 ， 因 此 像素 值 仅 需要 一 个 ， 将 对 应 噪声 点 位 置 的 
值 设 为 255 即 可 。 


下 面 的 代码 演示 了 图 像 加 噪 的 算法 ， 为 彩色 图 像 人 为 加 上 100000 个 色彩 随机 的 噪声 点 。 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#3-12.ру 

import cv2 

import numpy as np 
ое REM xF £ 
fn="testl.jpg" 



































if name == ' main ': 
# 加 载 图 像 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 





img = cv2.imread(fn) 
FRESKE 
coutn=100000 
for k in xrange(0, coutn): 
# 获 取 图 像 骂 声 点 的 随机 位 置 
xi = int(np.random.uniform(0, img.shape[1])) 
xj = int(np.random.uniform(0, img.shape[0])) 
TA oa E E, 
if img.ndim -- 2: 
img[xj, xi] = 255 


Е img.ndim == 3: 























з 


zd 





img[xj, xi, 0] 

img[xj, xi, 1] 

img[xj, xi, 2] 
cv2.namedWindow ('img') 
cv2.imshow('img', img) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 

















运行 效果 如 图 3-20 所 示 。 
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上 述 程序 的 运行 原理 是 将 图 像 数据 矩阵 随机 位 置 的 像素 点 设 为 (25，20，20) ， 当 随机 的 像素 点 数量 较 大 时 ， 就 在 图 像 上 生成 了 噪声 。 


加 上 噪声 的 图 像 是 为 了 实验 图 像 识别 的 效果 ， 有 些 机 器 学 习 算 法 对 没有 噪声 的 图 像 识 别 的 效果 很 好 ， 但 如 图 3-20 这 种 噪声 较 多 的 情况 效果 就 很 不 理想 了 ， 因 为 在 实际 工程 应 用 中 ， 很 难保 证 采集 到 的 图 
像 清 晰 可 靠 ， 所 以 需要 人 为 给 图 像 加 上 噪声 ， 以 方便 后 期 对 算法 效果 进行 验证 。 


声音 是 由 物体 的 机 械 振 动 形成 的 ， 发 生 声音 的 振动 源 叫 作 “ 声 源 ”。 振 动 着 的 鼓 皮 、 琴 弦 、 扬 声 器 等 都 是 声 源 ， 人 的 声带 也 是 声 源 。 声 音 必 须 通 过 媒质 才能 传播 ， 空 气 、 水 、 金 属 、 木 材 等 是 最 常见 的 
媒质 。 声 波 的 频率 是 每 秒 钟 往复 振动 的 次 数 ， 一 来 一 往 为 一 次 ， 又 称 一 周 ， 声 波 的 频率 也 就 是 声音 的 频率 ， 频 率 单位 为 赫兹 (Hz) ， 每 秒 振动 一 周 为 1Hz。“ 波 长 ”是 声 源 每 振动 一 周 声波 所 传播 的 距离 ， 
频率 越 高 则 波长 越 短 ， 波 长 同 频率 成 反比 。 


“相位 ”可 简称 为 “ 相 ”。 一 般 地 说 ， 相 位 是 用 来 描述 简 谐 振动 的 ， 在 一 个 周波 之 内 ,任何 一 点 的 “ 相 ” 都 不 相同 ， 各 对 应 于 一 个 确定 的 相位 角 值 ， 而 在 另 一 个 周波 ， 各 种 相位 将 会 重复 出 现 。 所 以 在 
声波 传播 的 路 径 上 ， 每 隔 一 个 波长 的 距离 ， 其 相位 相同 。 


声音 的 音调 是 由 它 的 基 频 决定 的 ， 基 频 越 高 则 音调 也 越 高 。 如 在 音乐 中 中 央 C 的 基 频 是 261.6Hz， 而 A 调 的 基 频 则 是 440Hz。 通 常 将 声音 分 为 以 下 频带 : 20Hz、25Hz、31.5Hz、40Hz、50Hz、63Hz、 
80Hz、100Hz、125Hz、160Hz、200Hz、250Hz、315Hz、400Hz、500Hz、630Hz、800Hz、1kHz、1.25kHz、1.60kHz、2.0kHz、2.5kHz、3.15kHz、4.0kHz、5.0kHz、6.3kHz、8.0kHz、10kHz、 
12.5kHz、16kHz、20kHz。 一 般 来 说 ， 人 耳 可 感受 的 正弦 波 的 范围 是 从 20Hz 的 低频 声音 到 20kHz 的 高 频 声 。 


声音 波 波 形 属 于 正弦 波 ， 拥 有 振幅 和 频率 两 个 特征 ， 振 幅 就 是 音量 ， 频 率 就 是 音调 。 下 面 调用 Python 的 WAV 声 音 处 理 库 以 及 Numpy 科 学 计算 库 显示 一 段 声音 的 波形 。 
显示 声音 波形 数据 的 主要 步骤 如 下 : 


1) 打开 WAV 文 件 ， 使 用 wave 库 的 open 方 法 ， 主 要 参数 为 文件 名 和 存 取 文件 方式 。 


# 以 读 方 式 打 开 WAV 文 档 
f = wave.open (r"back.wav",  "rb") 





2) 读 取 格式 信息 ， 使 用 wave 库 的 getparams 方 法 。 该 方法 返回 的 信息 中 比较 重要 的 是 前 4 项 ， 依 次 为 通道 数 、 样 本 宽度 、 样 本 频率 、 波 形 数据 长 度 。 





# 读 取 格 式 信息 

#(nchannels, sampwidth, framerate, nframes, comptype, Ccompname) 
params = f.getparams () 

nchannels, sampwidth, framerate, nframes = params[:4] 











3) 读 取 波形 数据 ， 波 形 数据 是 WAV 文 件 采样 后 生成 的 采样 数据 ， 使 用 wave 库 的 readframes 方 法 读 取 ， 该 方法 返回 的 数据 是 字符 类 型 。 


# 读 取 波 形 数据 














str data = f.readframes (nframes) 





4) 转换 波形 数据 为 Numpy 的 整 型 数组 对 象 。 


# 将 波形 数据 转换 为 数组 

wave data = np.fromstring(str data, dtype=np.short) 
wave data.shape = -1, 2 

wave data = wave data.T 

















5) 计算 时 间 轴 。 





time = np.arange(0, nframes) * (1.0 / framerate) 


6) 绘制 波形 ， 绘 制 前 调用 pylab 的 subplot 方 法 创建 两 个 上 下 形式 的 绘图 区 ， 每 个 绘图 区 各 绘制 一 个 声 道 的 数据 。 下 面 程序 中 subplot 方 法 的 参数 共 3 位 整数 ， 从 左边 开始 每 位 依次 表示 绘图 区 总 数 、 列 
创建 区 域 所 属 绘图 的 索引 ， 比 如 subplot(212) 表 示 绘 图 区 有 2 个 ， 一 共 1 列 ， 当 前 索引 为 第 2 个 绘图 


Règ 
2d 


# 绘 制 Ж 形 

# 创 建 上 边 的 绘图 区 
subplot (211) 
# 绘 制 左 声 道 
pl.plot(time, wave data[0]) 
# 创 建 下 边 的 绘图 区 

pi.subplot (212) 
# 
p 





„А. 
T 


Gr 








绘制 右 声 道 
l.plot(time, wave data[1], c="g") 





上 述 绘制 声音 波形 过 程 的 完整 代码 如 下 : 


#!/usr/bin/env python 

# -*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#3-13.ру 

import wave 

import pylab as pl 



























































import numpy as np 
print 'workinghttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
# 打 开 WAV 文 档 
f = wave. puts "back.wav",  "rb") 
# 读 取 格 式 信 息 
#(nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams () 
nchannels, sampwidth, framerate, nframes = params[:4] 
# 读 取 波 形 数 据 
str data = f.readframes (nframes) 
Е.сІозе () 





ПЕТЕРА 

wave data = np.fromstring(str data, dtype-np.short) 
wave data.shape = -1, 2 

wave data = wave data.T 


time = np.arange(0, nframes) * (1.0 / framerate) 



























































# 绘 制 波形 

pl.subplot (211) 

pl.plot(time, wave data[0]) 
pl.subplot (212) 

pl.plot (time, wave data[1], c="g") 
pl.xlabel("time (seconds) ") 
pl.show() 





程序 读 取 声音 文件 后 ， 绘 制 出 如 图 3-21 所 示 的 波形 。 


这 个 波形 表现 出 : 声音 信和 号 较 连 续 ， 随 着 时 间 的 推移 ， 变 化 不 明显 ， 没 有 停顿 ， 因 此 ， 这 是 一 段 音 乐 或 噪声 等 声音 而 不 是 人 声 ， 因 为 人 说 话 的 声音 有 个 特点 ， 就 是 每 个 字 之 间 有 少量 停顿 。 语 音 停 顿 期 
间 ， 声 音 采 样 软件 采样 不 到 数据 ， 过 了 这 个 停顿 期 ， 波 形 会 有 明显 的 变化 ， 如 图 3-22 所 示 波 形 就 是 典型 的 说 话 声音 波形 。 


- 


3.1.8 ”声音 音量 调节 


声音 音量 的 调节 方式 与 图 像 亮 度 调整 类 似 ， 不 同 的 是 音量 调节 的 是 波形 大 小 。 音 量 调节 通过 调节 采样 波形 的 大 小 实现 ， 采 样 数据 变 大 时 ， 声 音 音量 放大 ， 采 样 数 据 变 小 时 ， 声 音 音量 降低 。 音 量 不 能 无 
限 调节 ， 音 量 过 大 或 过 小 ， 会 形成 难听 的 噪音 ， 使 声音 失真 。 


boo +e 5B 





] 


B 
Е. 








0 4 6 8 10 12 1 1 


下 面 编写 代码 演示 音量 的 放大 。 为 保证 声音 
波形 数据 ，dwmax 为 上 限 ，dwmin 为 下 限 ， 该 




















def wavechange (x, dwmax, dwmin): 
if х!=0: 
if abs (x)»dwmax: 
x=x/ abs (x) *dwmax 
elif abs (x)«dwmin: 
х=х/арѕ (x) *dwmin 
else: 
х=х*1.5 
return X 


为 保证 放大 后 声 


使 用 wave _data.max(0 获 取 原 声 


# 放 大 音量 


change dwmax=wave da 
change dwmin=wave da 


wave change 














= np.frompy 





ta.max()/1 
ta.max()/1 
Гипс (wavechange, 3, 1) 


00*88 
00*14 





质量 =, 需要 对 音 
国 数 仅 会 将 上 限 与 下 限 之 间 区 域内 的 数据 放大 为 原来 的 1.5 倍 ， 


音 不 失真 ， 可 采用 以 原声 音 为 基准 的 放大 策略 ， 声 音波 形 图 像 类 似 正弦 函数 图 像 ， 在 以 时 间 轴 为 X 轴 、 
的 最 大 值 为 依据 计算 上 下 限 ， 上 限 为 原声 音 数据 最 大 值 的 88%， 下 限 为 原声 音 数 据 最 大 值 的 14%。 


音波 形 的 最 大 数据 值 (max 国 数 返 回 数组 的 最 大 值 ) ， 然 后 通过 frompyfunc 函 数 设置 调节 音量 的 回调 函数 为 刚刚 定义 的 wavechange 函 数 ， 


范围 设置 上 限 和 下 限 (以 原声 音 为 基准 计算 上 限 、 下 限 ) 。 
在 此 区 域外 的 数据 则 设置 为 上 限 或 下 限 。 


new wave data -wave change (wave data, change dwmax, change dwmin) 


音 数据 放大 后 ， 





然后 ， 设 置 新 文件 的 数据 参数 为 源 文件 的 数据 参数 ， 并 写 到 新 声音 文件 中 。 放 大 音 


fo = wave.open (r"jg.wav", 


# 写 波形 数据 参数 


print "save 
fo.se 


fo.set 














new wav 








"wb "Ç ) 


tnchannels (nchannels) 
framera 

















fo.se 


tsampwid 


te (framera 
th (sampwid 








te) 
th) 


最 后 调用 writeframes() 方 法 ， 以 放大 后 








Fo.write 








下 面 的 代码 演示 了 放大 音 


f!/usr/bin/env python 


# -*- coding: uti 


=k 


F-8 





#code :myhaspl(qq. com 


#3-14.ру 

import wave 
import 
import 


pylab as pl 
numpy as np 





def 








if х!=0: 


p--* 


ka. 


e] 


f abs (x)»dwmax: 


frames (new str data) 


算法 ， 并 绘 


E wavechange (x, dwmax, dwmin): 


x-x/abs (x) *dwmax 











els 


Е abs (x) «dwmi 


n: 


x-x/abs (x) *dwmin 


e: 
х=х*1.5 


return X 


# 打 开 WAV 文 档 





f = wave.open (r" speak. Wav Р 
fo = wave.open (r"jg.wav" 


# 读 取 波 形 数据 


# (nchannel 
params = f 
nchannels, 
prin 


s 





, sampwidth, 


.getparams () 





sampwidth, 





str data - 








F.readframes( 


"т rb "т ) 
"wl "т ) 





framerate, 


framerate, 





nframes) 


# 将 波形 数据 转换 为 数组 ， 并 更 改 





print "upda 





te wav da 








wave data = 
params = f 
nchannels, 





trin 





np.froms 


Пі 


fileshttp://www.hzcourse.com/resource/read 


需要 将 新 数据 写 入 新 的 声音 文件 中 。 首 先 以 写 方式 新 建新 声音 文件 : 


没有 改变 格式 信息 ， 因 此 ， 放 大 后 的 声音 音 的 格式 信息 一 样 。 


жей 


Book?path-/openresources/teach ebook/uncompressed/15753/OE 














BPS/Text/..http://www.hzcourse.com/resource/readl 


Hlk, fii wavechangeeRZ&, HARE, Бех ЕЈ 


采样 数据 为 Y 轴 的 坐标 系 中 ， 波 形 数据 可 正 可 负 ， 上 下 波动 。 因 此 ， 以 原声 音 数据 


最 后 对 数据 进行 放大 调节 。 





Book?pat 











音 数据 为 参数 将 数据 写 入 新 建 的 声音 文件 中 。 


I 出 了 源 声 





n 


frames 





frames, 


comptype, 


— params[:4] 
t "read wav datahttp://www.hzcourse.com/resource/read 


音波 形 与 放大 后 的 声 


音波 形 。 


compname) 


A 











BPS/Text/..http://www.hzcourse.com/resource/read 





Book?path-/openresources/teach ebook/uncompressed/15753/O0E 




















.getparams () 


sampwidth, 





str data = 
# 放 大 音量 

change dwma 
change dwmi 
wave change 
new wave da 
new wave da! 
new si 








F.readframes( 





са. 
са. 


x-wave da 
n-wave da 
np.frompy 
—wave chan 
-new wave 














та 
са 











tr data- -new wave í data. 


FS UU ANAA 


print ' 
fo.se 
Fo . Se 


'save 
tnchan 
frame 








g (str data, 


framerate, 





nframes) 


00*88 
00*14 


ax()/1 
ax()/1 





Пі 


tahttp://www.hzcourse.com/resource/read 


us 


Book?path-/openresources/teach ebook/uncompressed/15753/O0E 








BPS/Text/..http://www.hzcourse.com/resource/read 








Book?path-/or 





Book?path-/ 











dtype-np.short) 


frames 





Гипс (wavechange, 3, 1) 


— params[:4] 


ge(wave data, change ， dwmax, change dwmin) 


dat 








new wav file 
nels (nchannel 
rate(framerat 














sh 
S) 














fo.se 
Fo.wri 
# 绘 制 源 声 
wave data.s 
wave data 
time : = np.a 
. Subp] ot ( 














се 








tsampwid 


一 一 一 








th t 


hape = -1, 2 

wave_data.T 
range (0, 
221) 











.plot ( 
. Subpl 








ot ( 


time, 


wave data 


222) 














.plot( 
.Xlabel (" 








каша 





time, 





wave data 


time (seconds 





# 绘 制 放大 音量 波形 


new wave da! 
new wave data 


t( 


ta.shape = -1 





.arange (0, 





223) 





sampwidt 
frames (new str data) 
音波 形 


nframes) 


—new wave { 


e) 
h) 


* 


[0]) 
[1], 
)") 


, 2 
data.T 
nframes) 


c="g") 


大 





























О 


.Xlabel(" 





time, 


time (seconds 








L.show () 


如 图 3-23 所 示 波 形 图 中 ， 上 部 为 源 声 音 ， 下 部 显示 了 音 
后 ， 可 听 到 音 


量 放大 后 从 


) ") 


9 声音 效果 。 


(1.0 / 


new wave data[1], 





са. astype (wave | data. dtype) 
tostring|() 


tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0E 


framerate) 


(1.0 / framerate) 


с="9") 


x 














BPS/Text/..http://www.hzcourse.com/resource/read 





Book?pat 








量 放 大 后 的 波形 。 下 部 的 波形 数据 范围 为 -20000~20000， 而 上 部 范围 为 -15000~ 15000， 下 部 波形 整体 比 上 部 大 很 多 。 下 载 本 书 的 代码 包 运 行 


E 








图 3-23 ”声音 音量 放大 波形 


音量 降低 可 通过 将 采样 波形 变 小 来 实现 ， 具 体 来 说 ， 就 是 把 每 个 采样 数据 按 指定 比例 缩小 ， 同 时 将 缩小 幅度 控制 在 合理 的 范围 内 ， 保 证 音量 降低 后 声音 仍然 清晰 。 


1) 根据 上 下 限 参数 对 波形 数据 进行 调节 ， 定 义 缩小 波形 数据 的 函数 为 wavechange。 





def wavechange (x, dwmax, dwmin): 








if х!=0: 
if abs(x)«dwmax and abs (x)»dwmin: 
x-x*0.5 
else: 
x-x*0.2 
return X 


2) 与 放大 音量 类 似 ， 以 源 声音 波形 数据 的 最 大 值 为 基准 ， 计 算 上 限 和 下 限 ， 以 wavechange 为 回调 函数 ， 降 低音 量 。 





# 降 低音 量 

change dwmax=wave data.max()/100*1 

change dwmin=wave data.max()/100*0.5 

wave change = np.frompyfunc (wavechange, 3, 1) 

new wave data -wave change(wave data, change dwmax, change dwmin) 




















3) 生成 新 波形 数据 。 


new wave data -new wave data.astype (wave data.dtype) 
new str data-new wave data.tostring() 





4) 将 数据 写 到 新 声音 文件 。 





# 写 波形 数据 参数 
fo.setnchannels (nchannels 


£ - =d 


o.setframerate (framerate 
E. bis 


) 
) 
fo.setsampwidth (sampwidth) 
fo.writeframes (new str data) 























下 面 的 代码 演示 了 降低 音量 算法 。 


f!/usr/bin/env python 


# -*- coding: utf-8 


一 大 一 





#code :myhaspl(qq. com 


13-15.py 
import wave 


import pylab as pl 
import numpy as np 




















print 'workinghttp://www.hzcourse.com/resource/readi 
def wavechange (x, dwmax, dwmin): 
if х!=0: 
if abs(x)«dwmax and abs (x)»dwmin: 
x-x*0.5 
else: 
x-x*0.2 
return x 
# 打 开 WAV 文 档 
f = wave.open(r"back.wav", "rb") 
fo = wave.open(r"jg.wav",  "wb") 
# 读 取 波 形 数 据 
#(nchannels, sampwidth, framerate, nframes, comptype, 
params = f.getparams () 
nchannels, sampwidth, framerate, nframes = params[:4] 


print "read wav datahttp://www.hzcourse.com/resource/readi 





str data = 


F.read 











# 将 波形 数据 转换 为 数组 ， 并 更 改 








print "update wav da 














frames (nframes) 














Book?path-/openresources/teach ebook/uncompressed/15753/0l 





I 











compname) 


I 




















I 






































wave data — np.froms 

params = f.getparams|() 

nchannels, sampwidth, framerate， 
str data = f.readframes (nframes) 
# 降 低音 量 


change dwmax-wave dal 
change dwmin-wave dai 








wave change = 
new wave data 
new wave data 
new str data-new wave data. 
# 写 波形 数据 参数 

"save new wav 
cnchannels 
framera 





print 
fo.se 
Fo.set 

















np.frompy 


ta.max () /100*1 
ta.max () /100*0 
func (wavechange, 3, 1) 





dtype-np.short) 





nframes = params[:4] 


Mio 


=wave change (wave data, change dwmax, change dwmin) 
-new wave data.astype (wave data.dtype) 











nchannels) 


一 一 








framerate) 





се 











fo . Se 
FO .wri 














се 








wave data 


time = np.arange|(0, 
] t(221) 


О 





tsampwid 





. Subpl 
.plot( 
. Subp] 








time, 
° 








t (222) 








© o 'o'g 








.plot (time, 


xlabel(" 











time 








pl. 

# 绘 制 降低 音量 波形 
new wave data. 
new wave data 









































ch (sampwidth) 
frames (new str data) 
# 绘 制 源 声音 波形 
wave data.shape = 
wave data.T 


b. 2 


nrirame 


wave data[0] 





wave data[l1] 
(seconds) ") 


shape = -1, 


filesht 





S 


) 


3 


2 


) * 


(1 


tostring|() 


EBPS/Text/.. 


I 








tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0l 
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tahttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/ 
tring(str data, 











EBPS/Text/..http://www.hzcourse.com/resource/readBook?pat 











.0 / framerate) 


c="g") 


-new wave data.T 





* (1.0 / framerate) 


c="g") 


new time = np.arange (0, nframes) 
pl.subplot (223) 

pl.plot(new time, new wave data[0]) 
pl.subplot (224) 

pl.plot(new time, new wave data[1], 
pl.xlabel ("time (seconds)") 
pl.show() 





如 图 3-24 所 示 的 波形 图 中 ， 上 面 为 源 声音 ， 下 面 为 降低 音量 后 的 声音 波形 。 可 明显 看 出 ,音量 缩小 后 ， 其 波形 幅度 为 -3000~3000， 而 源 声音 波形 范围 大 很 多 ， 为 -15000~15000。 


O+ 








图 3-24 者 小 波形 
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3.1.9 ”图像 信息 隐藏 





1. 图 像 隐 藏 原理 


信息 隐藏 是 不 让 除 预 期 接收 者 之 外 的 任何 人 知晓 信息 的 传递 事件 或 者 信息 的 内 容 ， 载 体 文件 相对 隐秘 文件 的 大 小 越 大 ， 隐 藏 后 者 就 越 加 容易 。 因 此 ， 数 字 图 像 在 互联 网 和 其 他 传媒 上 被 广泛 用 于 隐藏 消 


本 节 讲 述 的 图 像 隐 藏 原理 是 : 首先 从 源 图 中 提取 文字 图 像 信 息 ， 并 记录 这 个 文字 图 像 信息 像素 点 在 图 像 矩 阵 中 的 位 置 ; 然后 ， 对 载体 文件 进行 预 处 理 ， 将 蓝 色 像素 值 全 部 设 为 偶数 ; 最 后 ， 将 记录 的 文 
字 信 息 像素 点 在 载体 文件 对 应 位 置 的 蓝 色 像 素 值 设 为 奇数 。 解 密 信 息 是 隐藏 信息 的 逆 过 程 ， 其 过 程 比较 简单 ， 即 提取 载体 文件 中 蓝 色 像素 值 为 奇数 的 像素 点 ， 将 空白 图 像 中 这 些 像 素 点 对 应 的 位 置 赋予 统一 
的 着 色 。 


2. 图 像 隐藏 实例 


下 面 用 实例 来 讲解 图 像 信息 隐藏 技术 。 我 们 的 目标 是 : 将 如 图 3-25 所 示 的 文字 隐藏 在 如 图 3-26 所 示 的 载体 图 片 里 。 要 求 隐藏 后 ， 无 法 察觉 图 中 隐藏 了 信息 。 


图 3-25 ”含有 待 隐藏 文字 的 图 像 


图 3-26 ”载体 图 像 


本 实例 隐藏 信息 的 主要 过 程 如 下 : 


1) 读 取 源 图 像 (将 写 上 需 隐 藏 文字 的 信息 ) 和 载体 图 像 ， 构 造 图 像 矩阵 。 





imgl cv2.imread(fnl) 
img2 cv2.imread(fn2) 
w-imgl.shape[l1] 
h-imgl.shape[0] 








2) 在 源 图 像 中 加 上 水 印 文字 作为 待 隐藏 文字 。 


# 加 上 需要 隐藏 的 消息 



























































Cv2.putText ETT "hello, world!", (20, 300), cv2.FONT HERSHEY PLAIN, 3.0, 
redcolor, thickness = 2) 

cv2.putText(imgl, "code by myhaspl:myhaspl8qq.com", (20, 60), cv2.FONT 
HERSHEY PLAIN, 2.0, redcolor, thickness - 2) Е 
cv2.putText(imgl, "Installing Python is generally easy. ", (1, 90), cv2.FONT 
HERSHEY PLAIN, 2, redcolor, thickness - 1) и 


3) 处 理 隐 藏 载体 图 ， 将 所 有 蓝 色 值 变 成 偶数 ， 以 便 加 入 隐藏 信息 。 





# 处 理 隐 藏 载体 图 
# 将 所 有 蓝 色 值 变 成 偶数 
for j in xrange (0, h): 
for i in xrange (0, w): 
Е (img2[j, i, 01%2)==1: 
img2[j, i, 0]-img2[j, i, 01-1 











E 





4) 读 取 源 图 像 ， 将 源 图 像 的 文字 像素 点 在 载体 文件 的 对 应 位 置 的 蓝 色 像素 值 设 为 奇数 ， 将 需要 隐藏 的 信息 写 入 目标 载体 图 。 





for j in ， А h): 

for i in xrange(0, w): 

f (imgl[j, i, 0], imgl1[j, i, 1], imgl[j, i, 2])--redcolor: 
img2[j, i, 0]=img2[j, i, 0]+1 
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5) 保存 修改 后 的 目标 载体 图 。 


cv2.imshow('img2-2', img2) 
cv2.imwrite(fn3, img2) 











下 面 的 代码 演示 了 隐藏 信息 的 过 程 。 





f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#3-16.ру 

import cv2 

import numpy as np 

# 含 有 文字 的 图 像 
fnl-2"testl.jpg" 

# 载 体 文件 
fn2-2"test2. . 

# 包 含 隐 藏 信息 的 载体 文件 
fn3-2"secret.png" 
redcolor-(0, 0, 255) 


























if name == ' main ': 
print u' 正 在 处 理 中 '， 
# 图 像 大 小 


imgl = cv2.imread (fnl) 
img2 = cv2.imread(fn2) 
w-imgl.shape[l1] 
h-imgl.shape[0] 

# 加 上 需要 隐藏 的 消息 







































































cv2.putText(imgl, "hello, world!", (20, 300), cv2.FONT HERSHEY PLAIN, 3.0, 
redcolor, thickness - 2) 

cv2.putText(imgl, "code by myhaspl:myhaspl8qq.com", (20, 60), cv2.FONT 
HERSHEY PLAIN, 2.0, redcolor, thickness - 2) = 
cv2.putText(imgl, "Installing Python is generally easy. ", (1, 90), cv2.FONT 
HERSHEY PLAIN, 2, redcolor, thickness - 1) Е 
су2. namedWindow ( ' imgl') 

cv2.imshow('imgl',  imgl) 

cv2.namedWindow ('img2-1') 

cv2.imshow('img2-1',  img2) 

# 处 理 隐 藏 载体 图 

# 将 所 有 蓝 色 值 变 成 偶数 





for j in xrange (0, h): 

for i in xrange(0, w): 

f (img2[j, i, 0]%2)==1: 
img2[j, i, 0]-img2[j, i, 01-1 
print E 
mirror w-w/2 

# 读 取 源 图 ， 并 将 信息 写 入 目标 图 ， 将 有 信息 的 像素 点 的 蓝 色 值 设 为 奇数 


for j in xrange(0, h): 








H- 

















for i in xrange (0, w): 
if (imgl[j, i, 0], imgl[j, i, 1], imgl[j, i, 2])==redcolor: 
img2[j, i, 0]=img2[j, i, 0]+1 


Dpxcnt. "t. 
# 保 存 修改 后 的 目标 图 ， 并 显示 
cCv2.namedWindow ('img2-2') 
cv2.imshow('img2-2',  img2) 
cv2.imwrite(fn3, img2) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 











运行 上 段 代 码 将 信息 隐藏 后 ， 肉 眼 观 察 载体 图 像 ， 仍 无 法 察觉 与 之 前 相 比 有 任何 变化 。 
下 面 来 看 看 解密 信息 过 程 。 解 密 信息 与 隐藏 信息 相反 ， 是 隐藏 信息 的 逆 过 程 ， 主 要 步骤 如 下 : 


1) 读 取 载 体 文件 及 其 大 小 信息 。 








img = cv2.imread (fn) 
w=img.shape [1] 
h=img.shape [0] 





2) ЕБЎ#Е ЧЁ EBE, ДӘ? ТУСЕР, 





imginfo -np.zeros((h, w, 3), np.uint8) 





3) 绘制 解密 的 水 印 文字 。 如 果 监 色 值 为 奇数 ， 则 该 像素 点 为 文字 。 








for j in xrange (0, h): 
for i in xrange(0, w): 




















cv2.imshow('info', imginfo) 
cv2.imwrite(fn, imginfo) 











下 面 代码 演示 了 解密 信息 的 过 程 。 


f!/usr/bin/env python 
f-*- coding: utf-8 -*- 
#code :myhasplqq. com 
# 解 密 文件 














if name == ' main ': 

t 'loading http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
int u' 正 在 处 理 中 '， 

= cv2.imread(fn) 

w-img.shape[1] 

h-img.shape[0] 

imginfo -np.zeros((h, w, 3), np.uint8) 

for j in xrange(0, h): 

for i in xrange (0, w): 















































if (img[j, i, 0]%2)==1: 
# 如 果 蓝 色 值 为 奇数 ， 则 该 像素 点 为 文字 
imginfo[j, i, 1]=255 
print '.', 
cv2.imshow('info', imginfo) 








cv2.imwrite(fn,  imginfo) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 











运行 解密 代码 ， 从 载体 文件 中 提取 信息 ， 效 果 如 图 3-27 所 示 。 
3.1.10 ”声音 信息 隐藏 


1. 声 音信 息 隐藏 原理 


声音 文件 是 一 个 不 错 的 信息 隐藏 载体 ， 声 音 文 件数 据 量 大 ， 能 隐藏 信息 的 容量 也 大 ， 假 设 每 秒 采 集 44100 次 ， 如 果 所 有 采样 数据 全 部 利用 上 ， 每 秒 的 声音 可 以 存储 44100 字 节 的 数据 ， 不 过 这 样 达 不 到 信 
息 隐 藏 的 效果 ， 只 能 利用 其 中 一 部 分 采样 数据 来 存储 信息 ， 占 有 的 采样 数据 越 少 ， 信 息 隐 藏 效果 就 越 好 。 


比如 ， 如 图 3-28 所 示 的 波形 是 一 段 音乐 的 声音 波形 ， 假 设 某 个 采样 点 的 数据 实际 是 信息 中 一 个 字 节 大 小 的 数据 ， 那 么 将 这 些 字 节 解密 后 ， 能 还 原 成 一 段 信 息 。 这 种 载体 的 隐藏 信息 的 效果 比 图 像 好 ,一 
般 很 难 被 人 友 现 。 


这 里 采用 的 隐藏 策略 是 : 产生 一 段 正弦 波 的 噪声 ， 然 后 ， 在 这 段 噪声 中 隐藏 一 段 文 本 文件 的 内 容 。 下 面 以 实例 来 讲解 这 个 过 程 ， 我 们 的 目标 是 : 将 本 章 前 面 讲 述 的 Python 代码 文件 3-1.py 隐 藏 到 一 段 品 
声 中 ， 解 密 者 如 果 不 知道 信息 解密 的 规律 ， 就 无 法 从 噪声 文件 还 原 这 个 Python 代码 文件 。 


oo by MEALS myhaspl@qq4.com 


aling Ру 5n 15 generally 


nello,world! 











оо +2 ве = 





83-28 ”音乐 的 声音 波形 


2. 声 音信 息 隐藏 实例 
隐藏 信息 的 具体 过 程 如 下 : 


1) 读 取 需 要 隐藏 的 文本 文件 ， 提 取 其 中 的 文字 信息 。 





# 打开 文档 
fo = wave.open(r"pltest.wav",  "wb") 
file object = open('3-1.py') 
try: 
all the text = file object.read( ) 





£ 








inall 








h 
«d 


le object.close( ) 





2) 将 文字 转化 为 对 应 的 内 部 编码 (本 例 的 文字 为 英文 字母 和 符号 ， 因 此 转换 为 ASCII 码 ) 。 


wdata=map (ord, all the text) 
wdata-np.array (wdata) 





3) 设置 噪声 载体 文件 的 波形 参数 。 载 体 文件 是 程序 人 为 生成 ， 所 以 将 幅度 设置 为 适合 的 区 域 ， 为 使 载体 噪声 更 接近 于 自然 的 噪声 ， 将 振幅 范围 设置 为 -25600~25600。 


# 设置 波形 参数 

# 采 样 率 

framerate = 44100 
LEE 

nchannels-2 

# 每 位 宽度 

sampwidth-2 

# 长 度 

nframes =framerate*4 
# 振 幅 
base amplitude = 200 

max amplitude=128*base amplitude 








Д) 计算 每 个 字符 的 间隔 ， 需 要 隐藏 的 若干 个 字符 以 等 间隔 的 形式 分 散在 噪声 数据 中 ， 即 : 在 噪声 波形 数据 中 ， 每 隔 指定 的 间隔 存放 一 个 字符 。 


# 每 个 字符 的 间隔 
interval= (nframes-10) /lwdata 








5) 生成 


# 每 周期 样本 数 
wave data-np.zeros((nframes), dtype=np.short) 


6) 生成 噪声 数据 ， 并 将 隐藏 文字 的 字符 写 入 噪声 数据 中 ， 这 一 步 是 关键， 也 是 算法 的 核心 。 算 法 把 整个 采样 的 线性 区 域 分 为 两 类 ， 如 果 当 前 采样 时 间 处 于 第 4 步 
写 入 的 数据 为 经 过 加 密 的 字符 ， 在 间隔 之 前 的 时 间 区 域 则 为 随机 品 


X 


算法 判断 是 否 到 了 指 


区 (每 个 字符 


区 只 能 存放 一 个 字符 ) ， 





高 强度 的 加 密 算法 ) ， 加 密 方式 为 : 将 


区 域 
长 度 


算法 代码 如 下 : 





写 品 声 数 据 和 隐藏 文字 的 字符 
оз. random. rand (nframes) 











О. 


if curpos $ interval--0 and 


空 波形 数据 ， 以 便 写 入 噪声 数据 和 字符 信息 。 


字符 的 ASCII 码 乘 以 指定 的 整数 后 ， 


随机 噪声 区 


for curpos in xrange(0, nframes): 


count«lwdata: 


# 将 隐藏 文字 的 字符 通过 一 定 的 变化 写 入 嗓 声 数据 中 
possamp-wdata[count]*base amplitude-64*base amplitude 
count-t-1 

elif curpos£$60--0: 

# 生 成 随机 嗓 声 数据 


possamp-int (myrand[curpos]*max amplitude-max amplitude/2) 





else: 


possamp-0 
wave data [curpos]-possamp 


T) 写 波形 数据 。 


# 写 波形 数据 参数 












































print "save new wav 

str data-wave data.tostring() 
Fo.setnchannels (nchannels) 
Fo.setframerate (framerate) 
Fo.setsampwidth (sampwidth) 
fo.setnframes (nframes) 
Fo.writeframes (str data) 

















下 面 来 看 看 解码 信息 过 程 ， 解 码 信 | 





fileshttp://www.hzcourse.com/resource/readi 


1) 读 取 噪声 载体 文件 以 及 相关 格式 信息 。 


new wdata-[] 


print u' 正 在 从 声音 解码 文件 ' 


fi = wave. 
fi params-fi.getparams () 


open (r"pltest. wav" 











i nframes = fi params[3] 











"rp" ) 











fi str data-fi.readframes (fi n 
fi wave data= np.fromstring(fi 











Frames) 























. Str data, dtype-np.short) 


2) 找到 字符 区 ， 将 其 中 的 字符 解密 并 还 原 成 字符 串 。 











О. 





for curpos in xrange(0, nframes): 
if curpos $ interval--0 and count«lwdata: 


减 去 64 与 该 整数 的 乘积 。 生 成 的 信息 隐藏 格式 如 表 3-2 所 示 。 


表 3-2 信息 隐藏 格式 


MAFIE KEHLER | 








息 是 隐藏 信息 的 逆 算 法 ， 主 要 步骤 如 下 : 


possamp-(fi wave data[curpos]+64*base amplitude) /base amplitude 
new wdata.append (Possamp) 
count-t-1 























3) 整理 还 原 字 符 串 ， 将 它们 写 入 文件 。 

my the text-"".join(map(chr, new wdata)) 
fmy the text-"".join(map(chr, new wdata)) 
file ' object = open('mytext.txt',  'w') 
file object.write(my the text) 

file object.close( ) 














Book?path-/openresources/teach ebook/uncompressed/15753/0 


定 的 间隔 处 ， 间 隔 处 是 字符 区 ， 否 则 是 噪声 区 。 如 果 是 噪声 区 ， 则 随机 生成 噪声 ;如 果 是 字符 区 ， 则 将 字符 进行 加 密 ， 写 入 字符 区 。 


加 密 字 符 区 | ...... 














下 面 程序 读 取 名 为 3-1.py 的 Python 源 程序 文件 ， 将 该 文本 隐藏 在 声音 文件 中 ， 然 后 打开 载体 声音 文件 ， 将 文本 还 原 为 Python 程序 文件 。 


f!/usr/bin/env python 
# -*- coding: utf-8 -*- 
#code :myhaspl(qq. com 











# 将 文件 隐藏 在 声音 之 中 
#3-18.py 

import wave 

import pylab as pl 

import numpy as np 

# 编 码 

print u' 正 在 将 文件 编码 进 声音 ' 
print "generate wav dal 

# 打 开 文 档 








fo = wave.open (r"pltest.wav", 
file object = open('3-1.py') 



































= 








BPS/Text/..http://www.hzcourse.com/resource/read 


计算 的 间隔 处 ， 则 表示 此 处 为 加 密 字符 


此 处 使 用 了 简单 的 加 密 算法 (实际 应 用 可 使 用 





EBPS/Text/..http://www.hzcourse.com/resource/readBook?pat 





Воок?раїг 











cahttp: //www.hzcourse.com/resource/read 


"wb " ) 














try: 
all the text fi 
Finally: 7 
file object.close( ) 
wdata-map (ord, all the text) 
wdata-np.array (wdata) 
lwdata-len (wdata) 
HAE. 波形 参数 
# 采 样 率 
framerate = 44100 
# 声 道 数 
nchannels-2 
# 每 位 宽度 
sampwidth-2 
KRÈ 


Пі 








frames = 


Framerate*4 





le object.read( ) 


Book?path-/openresources/teach ebook/uncompressed/15753/O0E 


TET 
base amplitude - 200 
max amplitude-128*base amplitude 
# 每 不 字符 的 间隔 
interval- (nframes-10) /lwdata 
# 每 周期 样本 数 
wave data-np.zeros((nframes), dtype=np.short) 
count-0 
I5 n 5 AGES GC S AS 
myrand-np.random.rand (nframes) 
for curpos in xrange(0, nframes): 
if curpos $ interval--0 and count«lwdata: 
possamp-wdata|[count]*base amplitude-64*base amplitude 
count-t-1 
f curpos$60--0: 
possamp-int (myrand[curpos]*max amplitude-max amplitude/2) 

else: 

possamp-0 

wave data [curpos]-possamp 
# 写 波形 数据 参数 
print "save new wav fileshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?pat 
str data-wave data.tostring() 
fo.setnchannels (nchannels) 
o.setframerate (framerate) 
fo.setsampwidth (sampwidth) 
fo.setnframes (nframes) 
o.writeframes (str data) 


























ыз 


E 








I 










































































fo.close() 
# 绘 制 波形 
wave data.shape = -1, 2 
wave data = wave data.T 
time = np.arange(0, nframes/2) 
pl.subplot (211) 
pl.plot (time, wave data[0], c="r") 
pl.subplot (212) 
pl.plot(time, wave data[1], c="g") 
pl.xlabel ("time (seconds)") 
# 解 码 
new wdata-[] 
print u' 正 在 从 声音 解码 文件 ' 
fi = wave.open(r"pltest.wav", "rb") 
i params=fi .getparams () 
i nframes = fi params[3] 
fi str data=fi.readframes (fi nframes) 
fi wave data= np.fromstring(fi str data, dtype=np.short) 
count-0 
for curpos in xrange(0, nframes): 
if curpos $ interval--0 and count«lwdata: 

possamp-(fi wave data[curpos]-*64*base amplitude) /base amplitude 

new wdata.append (possamp) 





























































































































count4-1 
my the text-"".join(map(chr, new wdata)) 
file object = open('mytext.txt',  'w') 














ile object.write (my the text) 
ile object.close( ) 
pl.show() 














运行 这 段 代码 ， 程 序 输出 了 编码 和 解码 过 程 。 


正在 将 文件 编码 进 声 音 
generate wav datahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openr 
save new wav fileshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/oper 



























































上 面 程序 演示 了 隐藏 信息 与 解码 信息 的 过 程 。 程 序 运行 后 ， 先 将 Python 源 代码 文件 3-1.py 隐 藏 在 一 段 噪声 中 。 然 后 ， 从 噪声 中 解码 信息 ， 将 文本 内 容 输出 到 mytext.txt 中 ， 用 记事 本 打开 该 文件 ， 如 图 
3-29 所 示 。 可 以 看 到 解码 后 的 程序 和 源 程序 一 样 ， 包 括 空格 、 符 号 及 字母 等 。 


文件 (F) SSE) 182000) #rB(V) *#Bh(H) 


HI /usr/bin/env python 
#4-1. ру 
import су2 


fn-"testl. pg 


if папе ==” main `: 
print http: / /blog. csdn. net /myhaspl' 
print 'myhasplüqq. com 
print 
print "loading *«s ...' W fn 
img = cv2. imread(fn) 
cv2. imshow( preview , img) 
cv2. waltkey() 
cv2. destroyhllWindows() 





图 3-29 ”解码 后 文件 


如 图 3-30 所 示 是 程序 运行 后 生成 的 声音 波形 图 像 ， 很 难看 出 来 哪些 采样 点 隐藏 了 文本 信息 。 下 载 本 书 源码 包 后 ， 可 以 播放 这 段 声音 (运行 3-18.py 后 ， 会 产生 声音 文件 pltest.wav) ， 只 能 听 出 声音 是 一 
段 很 平常 的 噪声 。 


15 000 
10 000 I| 











0 10000 20000 30000 40000 50000 60000 70000 80000 90000 
图 3-30 ”隐藏 了 文本 信息 的 波形 
3 信息 隐藏 与 解码 总 结 
综 上 所 述 ， 隐 藏 信息 的 算法 过 程 为 


1) 读 取 程序 文本 文件 ， 将 字符 转换 为 ASCII 码 。 


2) 确定 声音 文件 的 相关 参数 ， 生 成 2 秒 声音 ， 其 中 采样 数据 用 随机 数 代替 ， 生 成 随机 数 的 取 值 学 围 为 -15000~15000， 在 某 些 采 样 点 上 用 来 自 隐 藏 信息 的 字符 字 节 代 蔡 ， 代 蔡 的 方式 是 将 字 节 对 应 的 
ASCIl 码 乘 上 某 个 基数 加 一 个 调整 参数 ， 代 蔡 的 过 程 是 线性 的 。 


3) 将 生成 的 声音 数据 写 入 载体 文件 中 。 

解码 信息 的 算法 过 程 为 : 

1) 读 取 载体 声音 文件 及 其 相关 参数 。 

2) 按照 隐藏 信息 时 的 规律 ， 在 正确 的 位 置 读 取 字符 ， 然 后 将 读 取 的 字符 合成 信息 。 


3) 将 信息 写 入 恢复 文件 中 。 


第 3 草 ”计算 平台 应 用 实例 


3.1 Python 计算 平台 简介 及 应 用 实例 


目前 ， 科 学 计算 平台 很 多 ， 在 本 书 中 ， 使 用 Python 编写 的 机 器 学 习 算 法 用 到 的 计算 平台 有 : Numpy 等 科学 计算 包 、OpenCVv 的 Python 绑 定 库 、mlpy 机 器 学 习 库 、BeautifulSoup 网 页 解析 库 、 


TU 


Neurolab 神 经 网 络 库 等 ， 所 有 平台 均 为 开源 免费 软件 。 本 章 将 讲解 这 些 计算 平台 的 操作 ， 并 解析 一 些 基础 实例 应 用 。 


3.1.1 “Python 语言 基础 


1989 年 圣诞 节 期 间 ， 吉 多 . 范 罗 苏 姆 为 了 打发 假日 时 间 ， 决 心 开发 一 个 新 的 脚本 解释 程序 ， 作 为 ABC 语言 的 一 种 继承 ， 就 这 样 ，Python 在 吉 多 手中 诞生 了 。Python 的 设计 哲学 是 优雅 、 明 确 、 简 单 。 
Python 提供 了 丰富 的 API 和 工具 ， 使 程序 员 能 使 用 语言、C++、Cython 编 写 扩 充 模块 。 Python 编译 器 本 身 也 可 以 被 集成 到 其 他 需要 脚本 语言 的 程序 中 。 此 外 ， 很 多 人 把 Python 作为 一 种 “胶水 语言 ”使 
用 ， 用 它 将 其 他 语言 编写 的 程序 进行 集成 和 封装 。 

Python 包 含 了 一 组 完善 而 且 容 易 理 解 的 标准 库 ， 能 够 轻松 地 完成 很 多 常见 的 任务 ， 且 代码 语法 简洁 、 清 晰 ， 使 用 缩 进 定 义 语句 块 ， 具 备 很 高 的 可 读 性 。 由 于 Python 语 言 具有 简洁 、 易 读 以 及 可 扩展 
性 ， 在 国内 外 用 Python 做 科学 计算 的 研究 机 构 、 商 业 公司 日 益 增 多 ， 比 如 : 三 大 经 典 科学 计算 库 Numpy、sciPy 和 matplotlib 均 扩展 了 Python， 通 过 Python 可 以 轻松 完成 快速 数组 处 理 、 数 值 运算 和 绘图 
任务 。 


1.Python 基 本 数据 类 型 


Python 是 解释 运行 的 动态 语言 ， 解 释 器 的 提示 符 为 “> > >”。Python 的 基本 数据 类 型 包括 数字 型 、 字 符 串 型 和 列表 ， 此 外 还 可 以 用 类 型 表示 函数 、 模 块 、 类 型 本 身 、 对 象 的 方法 、 编 译 后 的 Python 代 


码 、 运 行 时 信息 等 。 


1) 数字 型 ， 可 将 Python 作为 一 个 计算 器 使 用 ， 在 计算 过 程 中 可 使 用 “+” (加 ) "" QE). "" (Ge. "UL" (8. "C. "O AK A (BUR) 等 操作 符 。 此 外 ，Python 
用 “# ”表示 其 后 的 内 容 是 注释 。 下 面 代码 演示 了 其 基本 的 计算 功能 和 注释 的 使 用 。 


>>> 2+2 

4 

>>> # 本 行 是 注释 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 2+8 




















10 
>>> (50-5*6) /2 





10 

>>> 17/-4 
-5 

>>> 922 

1 


Python 使 用 “=” 进 行 赋值 操作 ， 赋 值 操作 不 会 返回 任何 结果 ， 也 可 以 在 同一 行 中 连接 赋值 ， 赋 值 语句 将 从 右 到 左 依次 完成 赋值 。 下 面 的 代码 对 变量 进行 复数 和 实数 的 赋值 。 


>>> c=5.2-6.5j### ж 
>>> c 

(5.2-6.53) 

>>> C.real### 实 部 

5.2 

>>> c.imagt## E 3g 
=6.5 

>>>x = y = z = 0 


变量 在 使 用 前 ， 要 处 于 定义 状态 〈 即 已 经 赋值 ) ， 否 则 会 出 错 。 下 面 代码 试图 对 未 定义 的 变量 myx 进 行 操作 结果 出 错 了 。 


>>> пух # 访问 未 定义 的 变量 

Traceback (most recent call last 
File "«stdin»", line 1, in «module» 

NameError: name 'myx' is not defined 


~ 一 


. 











在 Python 计算 中 可 使 用 浮 点 数 。 如 果 在 计算 过 程 中 出 现 了 浮 点 数 ， 则 整 型 会 自动 转换 为 浮 点 型 计算 ; 如 果 全 是 整 型 ， 则 计算 结果 也 为 整 型 。 在 下 面 例子 中 ， 第 一 行 代码 两 个 操作 数 均 为 整 型 ， 返 回 的 结 
果 并 不 会 精确 为 整 型 ， 而 在 第 二 行 代码 中 ， 第 一 个 操作 数 7.0 为 浮 点 型 ， 返 回 的 结果 为 浮 点 数 。 (以 下 代码 请 在 Python 解释 器 下 运行 ) 。 


>>> 7/3 

2 

>>> 7.0/3 
2.3333333333333335 


复数 运算 使 用 (real+imagj) 的 形式 ， 也 可 使 用 complex(real，imag) 创 建 一 个 复数 对 象 ， 其 中 real 表 示 实 部 ，imag 表 示 虚 部 。 下 面 是 一 些 复数 计算 的 例子 。 


>>> 2+6J 


(2-6j) 

>>> 1j * complex(0, 1) 
(-1+03) 

>>> 341]*3 

(3+3) 





>>> a-1.540.5j 





>>> a.imag 
0:5 


变量 ”表示 刚 计算 的 结果 。 下 面 代码 通过 计算 (342) x6 演 示 了 该 变量 的 使 用 。 


2) 字符 串 型 。Python 的 字符 串通 常用 单 引 号 和 双 引 号 包围 的 形式 表示 ， 通 过 print 语 句 可 将 字符 串 输出 到 输出 设备 中 (默认 情况 下 输出 到 屏幕 ) 。 此 外 ，Python 2.0 及 以 后 的 版 本 支持 Unicode 字 符 
串 ， 中 文字 符 一 般 使 用 Unicode 编 码 (国际 组 织 制 定 的 容纳 世界 所 有 文字 和 符号 的 字符 编码 方案 ， 用 0~0x10FFFF 映 射 字符 ， 最 多 可 以 容纳 1114112 个 字符 ) ， 在 前 面 加 u 表 示 后 面 是 Unicode 字 符 串 。 下 面 
的 代码 演示 了 Unicode 字 符 的 定义 与 使 用 、 字 符 串 的 输出 等 操作 。 


>>> 'spam eggs' 


'spam eggs' 
>>> '"Yes, " he said.' 
'"Yes, " he said.' 


>>> print u" 你 好 "你 好 
>>> print u" 机 器 学 习 " 机 器 学 习 





Python 的 字符 串 可 视 为 列表 (数组 )， 使 用 “| 索引 ”的 方式 能 对 它 进行 切片 操作 (索引 从 0 开始 ) ， 使 用 “+” 可 对 字符 串 进行 连接 。 下 面 的 代码 演示 了 字符 串 的 连接 、 切 片 等 操作 。 


>>> word = 'Help' + 'A' 

>>> word 

'HelpA' 

>>> '«' + word*5 + '»' 
'«HelpAHelpAHelpAHelpAHelpA-»' 











>>> word[-2:] # 最 后 2 个 字符 

'pA' 

>>> word[:-2] # 除 去 最 后 2 个 字符 以 外 的 字符 
'Hel' 


Python 的 字符 串 可 使 用 转 义 字符 ， 方 法 是 在 特殊 字符 前 加 上 "A". НУВ: 
v #55 

v 双 引 号 

\a 发 出 系统 响 铃声 

\ ЈЕ 

\n 换行 符 

\ ”横向 制 表 符 

\у ”纵向 制 表 符 

\r 回 车 符 

V АШ 

N \ 

\о ”八进制 数 代表 的 字符 

\х 十 六 进 制 数 代 表 的 字符 

\000 ”终止 符 ，\000 后 的 字符 串 全 部 忽略 


此 外 ，Python 的 字符 串 相 比 其 他 程序 语言 多 了 一 种 描述 方式 ， 就 是 用 3 个 引号 标示 字符 串 ， 其 功能 是 将 字符 串 内 容 原样 输出 ， 如 果 字 符 串 本 身 包括 换行 ， 则 输出 换行 ， 如 果 包 括 特 殊 字 符 ， 则 字符 串 无 
需 使 用 转 义 字符 。 下 面 的 代码 演示 了 中 文字 符 串 的 输出 、 转 义 字符 的 使 用 、 字 符 串 切 片 、 统 计 长 度 、 三 引号 使 用 等 操作 。 


>>> 'doesnN't' 

"doesn't" 

>>> "N"Yes, N" he said." 

'"Yes, " he said.' 

>>> print u" 你 好 ，Python\n 机 器 学 习 " 你 好 ，Python 机 器 学 习 

>>> print u"""4rXf, Python 
http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 机 器 学 习 """ 你 好 ，Python 机 器 学 习 
>>> mystr- u" 你 好 ，Python\n 机 器 学 习 " B 
>>> print mystr 你 好 ，Python 机 器 学 习 

>>> print mystr[:5] 你 好 ，Py 

>>> ргіпі mystr[3:5] 









































Ру 
>>> 1еп(шузїг)###1еп j&i 3 3 K 
14 


Python 字符 串 的 三 引号 表示 方式 意义 重大 ， 用 它 可 以 在 CGI (CGI 允许 Web 服 务 器 执行 外 部 程序 ， 并 将 它们 的 输出 发 送 给 Web 浏 览 器 ) 程序 中 轻松 输出 HTML 人 代码。 下面 是 CGI 的 “Hello World” = 


f!/usr/bin/env python 

print "Content-Type: text/html" 
print 
print """chtml» 
«body» 
«h2»Hello World!«/h2» 
</body> 

</html> 











3) 列表 。Python 可 将 不 同类 型 (包括 复合 类 型 本 身 ) 的 值 组 成 复合 类 型 ， 列 表 就 是 复合 类 型 之 一 。 与 字符 串 相同 ， 列 表 可 以 使 用 切片 操作 ， 其 索引 也 是 从 0 开始 的 。 此 外 ， 统 计 列表 的 长 度 使 用 len 冰 
数 ， 使 用 “*” 将 生成 新 列表 ， 其 元 素 由 源 列表 重复 填充 ， 使 用 “+” 可 连接 列表 。 下 面 的 代码 演示 了 列表 的 定义 、 连 接 、 重 复 填 充 、 切 片 、 统 计 长 度 等 操作 。 





>>> а = ['hello', 'world', 100, 1234] 


['hello', 'world', 100, 1234] 
>>> а[:2] + ['-', 2*2]### 连 接 列表 
['hello', 'world', '-', 4] 

>>> mylist-[1, 23, 45] 























[4. 15] 

>>> my1iStx2### 重 复 填充 列表 
[1, 23, 45, 1, 23, 45] 
>>> mylist[:2]####|] Жл А 


























"oa. 3 
>>> y = [11, x, 14] 
>>> len(y)TH 4 0 K K 








列表 和 字符 串 也 可 称 为 序列 ， 序 列 由 若干 个 元 素 组 成 ， 每 个 元 素 的 先后 顺序 明确 ， 不 能 更 改 。 
2.Pythoni&$J 


1) 条 件 语句 。if 语 句 的 作用 是 判断 条 件 是 否 成 立 ， 如 果 成 立 ， 则 执行 后 面 的 语句 块 ; ifhttp;//www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...elifhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...elif 语 句 可 用 于 对 多 个 条 件 进行 判断 ， 并 执行 最 先 满足 条 件 的 语句 块 ;else 语 句 表示 所 有 条 件 都 不 成 立时 执行 。 下 面 的 例子 展 
示 了 if 语句 的 使 用 方法 ， 功 能 是 对 输入 数字 的 范围 进行 判断 ， 并 将 其 中 的 负数 转变 为 0。 


>>> x = int(raw input("Please enter an integer: ")) 

Please enter an integer: -10 

>>> if x < 0: 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... x = 0 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print 'Negative changed to zero' 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... elif x == 0: 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print 'Zero' 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... elif x = 1: 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print 'Single' 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... else: 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print 'More' 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 
N 
h 
h 
h 
h 
h 
h 
h 
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egative changed to zero 下 面 例子 演示 了 判断 非 奇 偶数 。 
ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... for x іп range(1, 10): 

ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... if x $ 2 — 0: 

ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print x, '15 an even number'. 
ttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 
ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... else: 

ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... # loop fell through without finding a factor 
ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print x, '15 an odd number.' 

ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

2 is an even number 

3 is an odd number 

4 is an even number 

5 is an odd number 

6 is an even number 

7 is an odd number 

8 is an even number 

9 is an odd number 




























































































































































































2) 循环 语句 。for 语 句 表 示 循 环 ， 它 与 C 语 言 中 的 for 语 句 略 有 不 同 。(C 语 言 的 for 语 句 可 定义 步 长 和 终止 循环 条 件 ， 而 Python 的 for 语 句 在 Python 的 序列 (列表 、 字 符 串 等 ) RAR, SEXHIERH— 
项 。 下 面 的 代码 在 单词 列表 中 迭代 ， 每 次 运 代 输出 单词 及 其 长 度 。 


>>> 4 Measure some strings: 




































































http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... words = ['cat', 'window', "'hello'] 
>>> for w in words: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print w, len(w) 

http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

cat 

window 6 

hello 5 


taa] LUE TOS ЕН EKE. ААУ ЕУЕН 71848, 





>>>words = ['cat', 'window', "'defenestrate'] 
>>> for w in words[:]: 







































































http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... if len(w) » 6: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... words.insert(0, w) 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

>>> words 

['defenestrate', 'cat', ''window',  'defenestrate'] 








3) гапдер& 9. fori& EE RERIT, Аш ЕЖ, CLECIBEBJforf8zNUIB6SSÍRZe, АЗСА, Arange, Иш СЕ Нога ЕА, гапоеёв ЈН 
律 的 列表 等 序列 。 下 面 代 码 产生 0~9 共 10 个 数字 ， 增 长 步 长 为 1。 


>>> range (10) 
ГО. à y de ds Dy (Op Ys Ва 29] 


range 函 数 还 可 以 产生 更 复杂 的 序列 ， 常 用 调用 格式 为 : 


range (起 始 值 ， 终 止 值 ， 步 长 ) 


其 中 起 始 值 和 步 长 可 以 省 略 ， 起 始 值 默认 为 0， 步 长 默认 为 1。 


>>> range(5, 10) 

[5 6, 7, 8, 9] 

>>> range(0, 10, 3) 

[0, 3, 6, 9] 

>>> range(-10, -100, -30) 
[-10, -40, -70] 





下 面 的 代码 是 range 函 数 与 for 语 句 组 合 的 应 用 ， 输 出 列表 元 素 的 索引 及 值 。 


>>> a = ['Mary', 'had', 'a', '"'little', 'lamb'] 
>>> for i in range (Іеп (а)) : 











tp://www.hzcourse.com/resource/read 











Ms о оно 


下 面 的 代码 完成 1 至 


tp://www.hzcourse.com/resource/read 
Mary 
had 

a 
little 
lamb 








Book?pa 











10 中 奇数 的 累加 。 


>>> mysum-0 


>>> 





Ғог 1 


in range (1, 10, 2): 








h 











tp://www.hzcourse.com/resource/read 











http: //www.hzcourse.com/resource/readl 
>>> mysum 
25 



































4) break 与 continue。break 语 句 结束 本 层 循 环 ， 
>>> for n in range(2, 10): 

http: //www.hzcourse.com/resource/readBook?pa 
http: //www.hzcourse.com/resource/readBook?pat 
http: //www.hzcourse.com/resource/readBook?pa 
http: //www.hzcourse.com/resource/readBook?pa 
http: //www.hzcourse.com/resource/readBook?pat 
http: //www.hzcourse.com/resource/readBook?pa 
http: //www.hzcourse.com/resource/readBook?pa 
2 is a prime number 

3 is a prime number 

4 equals 2 * 2 

5 is a prime number 

6 equals 2 * 3 

7 is a prime number 

8 equals 2 * 4 

9 equals 3 * 3 


下 面 的 代码 使 用 了 continue 语 句 ， 判 断 50 至 60 之 间 的 数 哪些 是 奇数 ， 





























5) while 循 环 。 


>>> a-range(1 


>>> while i<] 


i-0 





h 





tp://www. 








ht 
[0 


tp://www. 
> Ts 25 


for num in range (50, 
tp://www. 
tp://www. 
tp://www. 
tp://www. 
tp://www. 






































60) : 
com/resource/readBook?pa 
com/resource/readBook?pa 
com/resource/readBook?pa 
com/resource/readli 


hzcourse. 
hzcourse. 
hzcourse. 
hzcourse. 














th-/openresources/ 
Book?pat 


Book?pa 
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th-/openreso 


th-/openreso 
th-/openreso 


th-/openreso 
th-/openreso 


th-/openresources/ 
th-/openresources/ 
th-/openresources/ 
Book?pat 








teach ebook/uncompressed/1 





h-/openresources/ 


th-/openresources/ 


teach ebook/uncompressed/1 








th-/openresources/i 








continue 语 句 忽略 下 面 的 语句 继续 本 层 的 下 


urces/ 





teach ebook/ 





urces/ 
urces/ 


h-/openreso 


teach ebook/ 
teach ebook/ 





urces/ 





urces/ 


teach ebook/ 
teach ebook/ 





h-/openreso 





urces/ 


teach ebook/ 








urces/ 











teach ebook/ 


哪些 是 偶数 。 
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teach ebook/uncompressed/1 
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hzcourse.com/resource/readi 

hzcourse.com/resource/readi 
Sa de «Da б Xs бе. 9] 
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次 循环 。 


uncompressed/1 
uncompressed/1 
uncompressed/1 
uncompressed/1 
uncompressed/1 
uncompressed/1 
uncompressed/1 
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ВР5/Техі 





5753/0 
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BPS/Tex 
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i| FJ pd p EJ 
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在 while 循 环 中 会 一 直 执行 后 面 的 语句 块 ， 直 到 条 件 不 满足 才 终止 。 下 面 的 代码 用 于 在 列表 中 循环 ， 


BPS/Tex 








5753/01 





;«BPS/Text 





6) 函数 定义 。Python 使 用 def 天 键 字 定 义 函数 。 下 面 的 代码 定义 了 屏幕 输出 函数 show ， 参 数 是 要 输出 的 内 容 。 


>>> de 








h 











h 


>>> show() 
hello 


>>> show ("机 


下 面 的 代码 定义 了 裴 


>>> def 






































еу еее 
( 


3.Python 的 元 组 、 集 合 


1) tuple 元 组 。tuple 元 组 类 似 列表 ， 不 同 的 是 它 的 内 容 不 能 修改 。Python 元 组 的 定义 方式 是 使 用 圆 括号 包含 元 素 或 直接 列举 元 素 。 下 面 的 代码 将 定义 x 为 元 组 类 型 ， 


> 
L d 





tp://www. 
tp://www. 
tp://www. 
tp://www. 
tp://www. 
tp://www. 
fib (2000) 

2 3 5 8 13 21 


f show (mess="hello"): 
tp://www. 
tp://www. 


hzcourse.com/resource/readBook?pa 


hzcourse.com/resource/read 











器 学 习 ") 机 器 学 习 


波 那 契 数 列 的 计算 函数 fib。 


Fib (n): 


Book?pa 
Book?pa 


hzcourse.com/resource/readi 
hzcourse.com/resource/readi 
hzcourse.com/resource/readi 
hzcourse.com/resource/readBook?pa 
hzcourse.com/resource/readBook?pa 
hzcourse.com/resource/readBook?pa 























34 55 89 144 233 377 610 


以 及 字典 


改 时 ，Python 解 释 器 提示 错误 。 


th-/openresources/ 
Book?pat 


Book?pat 
th-/openresources/ 
th-/openresources/ 
th-/openresources/ 
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h-/openresources/ 




















987 1597 
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;«BPS/Text 


ВР5/Техі 
BPS/Tex 
BPS/Tex 
BPS/Tex! 
BPS/Tex 
ВР5/Техі 


ВР5/Техі 
;«BPS/Text 


bera 


Es 





E/ s 
t/... 


or PM 
t/... 


下 面 的 代码 使 用 break 语 句 ， 


EJ жуа 
7 22 


Е 
Ук» 
E vu 


/. 
EZ 











print i, a[i] 


mysumemysum-ti 


查找 2 至 10 以 内 (4310) 的 素数 ， 如 果 不 是 素数 ， 则 分 解 因数 。 





x in range(2, n): 
if n $ x = 
print n, 
break 
Е п==х+1: 

# loop 

print n, 


for 





'equals', x 








factor 














fell through without finding a 
'is a prime number' 





f num $ 2 == 
print "偶数 " 
continue 


print "wg Ж", 





H- 


, num 


NT 504% 51 偶 数 524-K 53 偶 数 544 Җ 55 偶 数 564 4k 57 偶 数 584 Җ 59 


E/ ае 
t/... 


E/ sa 
Бе 


E eue 
Eum 


tU... 


并 输出 元 素 。 


print a[i], 
ї=ї+1 


print mess 


"""Print a Fibonacci series up to n.""" 


a, р= 0, 1 
while a < n: 
print a, 
a, b =b, atb 


当 对 x[0] (x 的 第 一 个 元 素 ) 进行 修 





>> 
TE 


Typel 


>> 


2) Sets 





> x[0] 
aceback 
File 
Error: 





> 


"<stdi n>" š 


EA 


N A o 


=90 


(most recent call last): 
line 1, in <module> 
object does not support i 








'tuple' 














> basket = ['apple', 'orange', 'apple', 
> fruit = set (basket) 

> fruit 

t(['orange', 'pear', 'apple', 'banana']) 





tem assignment 


Python 使 用 方 括号 定义 Sets 集 合 ， 集 合 的 特点 是 无 重复 元 素 


'pear', 'orange', 














=< 


'banana' ] 

















M 





进行 管 


ni 


理 。 下 面 的 代码 定义 了 一 个 水 果 列 表 ， 通 过 set 国 数 转换 为 集合 ， 去 除 重复 


下 面 的 代码 通过 in 操作 检查 成 员 与 集合 的 关系 。 














>>> 'orange' in fruit HH EX SAXA 
True 
>>> 'crabgrass' in fruit### 集 合 类 是 否 
False 
既然 是 集合 ， 当 然 能 对 
“&”、“^” 操 作 符 计算 集合 的 差 集 、 并 集 、 
>>> а = set('abracadabra') 
>>> р = set('alacazam!') 
>>> а 
set(['a', gts dou Ves rat] 
>>> a - b 
set(['r', 'd', "'b']) 
>> a | b 
set(['a', ет аа "gts TOs 'm', Y 
>>> a & b 
set(['a', 'c']) 
>>>. a ^ р 
set(['r', "а", Dr "ntt MT ЕТ) 








3) Dictionaries 字 典 。 


交集 和 对 称 差 集 。 下 面 的 代码 


'orange' 


有 成 员 'crabgrass' 


它 进行 集合 的 数学 运算 。Python 集 合 支 持 union (联合 或 并 ) 、intersection (Ж), 


演示 了 对 集合 a 和 b 的 运算 。 





difference (Ж) 和 sysmmetric difference (对 称 差 ) 等 操作 ， 可 通过 “-” 、 


是 键 ， 键 在 字典 中 必须 保持 唯一 ， 字 典 与 列表 和 元 组 不 同 ， 列 表 和 元 组 属于 序列 ， 元 素 以 先后 顺序 来 管理 ， 而 字典 的 元 素 是 以 键 为 单位 对 值 进行 管理 的 ; 第 二 部 分 为 值 ， 值 与 键 一 一 对 应 ， 值 可 以 彼此 相 


同 。 


Python 使 用 花 括号 定义 字典 ， 使 用 类 似 索 引 的 方式 存 取 值 ， 但 索引 


以 及 如 何 对 学 生 信息 进行 删除 、 查 询 等 操作 。 














为 键 。 此 外 ， 可 使 用 del 操 作 删 除 键 值 对 ， 


>>> tel = {' 张 三 ': 4098, ' 李 四 ': 4139) 

>>> tel 

{'\xd5\xc5\xc8\xfd': 4098, '\хс0\хее\хср\хс4!': 4139} 
>>> tel[' 张 三 '] 

4098 

>>> del tel[' 张 三 '] 

>>> tel[' 张 三 "] 

Traceback (most recent call last): 


File "<stdin>", 


line 1, 


in <module> 














KeyError: 

>>> tel.keys() 
['\хсб\хее\хсЬ\хс4'] 
>>> tel[' 王 华 !]=1000 
>>> tel.keys() 
["\хса\х#5\хрр\хаа', 








'NAxd5Nxc5Nxc8Nxfd' 


"\хс0\хее\хср\хс4'! |] 


>>> print tel.keys()[0] = 1 


上 面 代码 中 ， 


4.Python 类 


Python 语言 有 强大 的 面向 对 象 编程 能 力 。 Python 和 C++ 


X2: 


ŽANRE 


class 


变量 A=A 初 始 值 








k 
= = 





B=B 初 始 值 


八 xcd” 等 为 汉字 在 Python 内 部 的 编码 。 








http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/157 
# 下 面 定 义 了 类 成 员 函 数 


def init 


(selt, 








def del 


# 类 构造 函数 
http: //www.hzcourse.com/resource/readl 
(self): 





— 





http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresour 
def Zikl(self, A41, А2, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..., Jn): 
# 类 的 方法 





# 析 构 元 数 





参数 1， 参 数 2,，http://www.hzcourse.com/resource/readi 





Book?path-/openresources/teach ebook/uncompressed/15753/0El 


xc 一 


使 用 keys() 方 法 返回 字典 变量 存储 的 所 有 键 。 下 面 的 代码 


等 语言 一 样 拥有 类 机 制 ，Python 类 的 定义 方式 如 下 : 


53/0El 








Dictionaries (字典 ) 是 一 种 散 列 结构 ， 可 理解 为 Hash ( 散 列 ) 类 型 。 字 典 由 若干 个 键 值 对 组 成 ， 键 值 对 是 一 种 映射 ， 一 个 键 对 应 于 一 个 值 。 键 值 对 由 两 个 部 分 组 成 ， 第 一 部 分 


演示 了 一 个 学 生 学 号 的 字典 变量 ， 


BPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/tes 









































http: //www.hzcourse.com/resource/readl 


Book?path-/openresources/teach ebook/uncompressed/15753/0E 





BPS/Text/..., fn): 

















BPS/Tex 















































http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/157 


下 面 的 代码 定义 了 一 个 复数 类 Complex， 同 时 定义 了 类 的 实例 变量 x， 


>>> class Complex: 

















h 
h 
h 
h 
h 








tp://www.hzcourse 
tp://www.hzcourse. 
tp://www.hzcourse. 
tp://www.hzcourse. 
tp://www.hzcourse. 


>>> x = Complex (3.0, 


>>> x.t, 
(3.05 


х.1 
-4.5) 


5.Python 异 常 处理 


.Com/resource/readl 
com/resource/readi 
com/resource/readi 
com/resource/readi 
com/resource/readi 




















-4.5) 


Book?path-/openresources/teach ebook/uncompressed/15753/0E 
Book?path-/openresources/teach ebook/uncompressed/15753/0E 
Book?path-/openresources/teach ebook/uncompressed/15753/OE 
Book?path-/openresources/teach ebook/uncompressed/15753/0E 
Book?path-/openresources/teach ebook/uncompressed/15753/O0E 





E 





Book?path-/openresources/teach ebook/uncompressed/15753/O0El 











t/..http://www.hzcourse.com/resource/readBook?path-/openresources/teac 


BPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources 














53/0El 











BPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/tee 











最 后 输出 该 变量 的 实 部 和 虚 部 。Complex 类 很 简单 ， 在 类 构造 函数 中 对 实 部 成 员 和 虚 部 成 员 进行 赋值 。 
























































BPS/Text/... r-0 

—BPS/Text/... i-0 

BPS/Text/... def init (self, realpart, imagpart): 
BBPS/Text/... self.r = realpart 

—BPS/Text/... self.i = imagpart 

















Python 的 异常 处 理 能 力 很 强大 ， 可 准确 反馈 出 错 信息 。 在 Python 中 ， 异 常 是 对 象 ， 可 对 它 进 行 操作 。 所 有 异常 都 是 基 类 Exception 的 成 员 ， 从 基 类 Exception 继 承 ， 在 exceptions 模 块 中 定义 。Python 


异常 处 理 的 格式 如 下 : 


try : 





# 
h 
except 异常 类 型 : 











h 


下 面 为 可 能 发 生 异 常 的 语句 块 


tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15 








# 下 面 为 处 理 异 常 的 语句 块 
tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15 
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Le 





753/O0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/! 











ТИЕН МӘ AE АЕ, ТЕЛЕ ДЖОЛУ е 7 ЕЕ, ПАЛАЕ Е, іп ЗИ =e ValueError, ЯК аа "BE! 输入 不 是 有 效 数 字 ， 请 重新 输入 


(Oops!That was no valid number.Try againhttp://www.hzcourse.com/resource/readBook?path = /openresources/teach ebook/uncompressed/15753/OEBPS/Text/...) " 


的 数字 后 ， 程 序 才 退出 。 


>>> while True: 
h 
h 
h 

















tp://www.hzcourse.com/resource/readl 
tp://www.hzcourse.com/resource/readl 
tp://www.hzcourse.com/resource/readl 
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Book?path-/openresources/teach ebook/uncompressed/15753/O0EH 





， 直 到 输入 正确 格式 
































BPS/Text/... try: 
EBPS/Text/... X = int(raw input("Please enter a number: ")) 
BPS/Text/... break 





Book?path-/openresources/teach ebook/uncompressed/15753/OEl 


Le 








http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... except ValueError: 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. print "Oops! That was no valid number. Try againhttp://www 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 














М. 


















































前 面 演示 了 异常 的 被 动 触发 ，Python 还 能 主动 触发 异常 ， 处 理 方式 为 : 先 通 过 raise 语 句 抛 出 异常 ， 然 后 用 except 捕 捉 异 常 。 下 面 的 代码 演示 raise 主 动 抛 出 NameError 异 常 后 被 捕捉 ， 输 出 “An 
exception flew by!” 后 ， 继 续 抛 出 异常 ， 以 便 给 更 外 层 的 异常 处 理 函 数 继续 处 理 。 






















































































>>> try: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... raise NameError ('HiThere'!) 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... except NameError: 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... print 'An exception flew by!' 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... raise 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 




















An exception flew by! 

Traceback (most recent call last): 
File "«stdin»", line 2, in? 

NameError: HiThere 











以 上 简要 介绍 了 Python 编程 语言 的 基本 语法 ， 它 和 C+ + 有 几 分 相似 ， 有 一 定编 程 基础 的 读者 应 该 都 能 看 懂 。Python 是 一 门 上 手 很 快 的 编程 语言 ， 它 与 其 他 语言 最 大 的 不 同 就 是 它 区 分 语句 块 时 使 用 的 
不 是 括号 ， 而 是 每 行 语句 前 面 的 空格 数量 。 因 此 ，Python 代 码 非 常 工整 和 漂亮 ， 它 严格 遵守 代码 语句 块 的 缩 进 原 则 ， 可 依靠 缩 进 判断 语句 块 的 范围 。 


3.1.2 Numpy 库 
本 书 中 介绍 的 机 器 学 习 算 法 大 部 分 是 调用 Numpy 库 来 完成 基础 数值 计算 的 。 下 面 了 解 一 下 umpy 库 的 基本 使 用 方法 。 
1.ndarray 数 组 基础 


Python 中 用 列表 保存 一 组 值 ， 可 将 列表 当成 数组 使 用 。 此 外 ，Python 有 array 模 块 ， 但 它 不 支持 多 维 数组 ， 无 论 是 列表 还 是 array 模 块 都 没有 科学 运算 函数 ， 不 适合 做 矩阵 等 科学 计算 。 因 此 ，Numpy 
没有 使 用 Python 本 身 的 数组 机 制 ， 而 是 提供 了 ndarray 数 组 对 象 ， 该 对 象 不 但 能 方便 地 存 取 数 组 ， 而 且 拥有 丰富 的 数组 计算 函数 ， 比 如 向 量 的 加 法 、 减 法 、 乘 法 等 。 


使 用 ndarray 数 组 ， 首 先 需 要 导入 Numpy 函 数 库 ， 可 以 直接 导入 该 函数 库 (本 节 频 繁 使 用 Numpy 库 的 函数 ， 因 此 采用 这 种 方法 ) 。 





from numpy import * 
或 者 指定 导入 库 的 别名 。 
import numpy as np 


下 面 正 式 进入 Numpy 的 数组 世界 。 如 果 没 有 说 明 ， 所 称 数 组 均 为 Numpy 的 数组 对 象 ， 与 Python 的 列表 和 array 模 块 无 关 。 


1) 创建 数组 。 创 建 数组 是 进行 数组 计算 的 先决 条 件 ， 可 通过 array() 函 数 定义 数组 实例 对 象 ， 其 参数 为 Python 的 序列 对 象 (比如 列表 ) 。 如 果 想 定义 多 维 数组 ， 则 传递 多 层 庶 套 的 序列 。 例 如 下 面 这 条 
语句 定义 了 一 个 二 维 数组 ， 其 大 小 为 (2，3) ， 即 共有 2 行 ， 每 行 各 3 列 。 


a = пр.аттау (Г Ts Y. Usls L =Z; lay 2.11) 


上 面 语 句 定 义 了 如 表 3-1 所 示 的 数组 。 


表 3-1 二 维 数 组 结构 


: 


N 


JS sEFgarray0b82%6lJgËE— (2, 3) 大 小 的 数组 变量 x。 





>>> from numpy import * 
>>> x-array([[ 1., 0., 0.1], [ 0., 1., 2.11) 


以 刚才 定义 的 x 变量 为 例 ， 来 熟悉 ndarray 数 组 对 象 的 主要 属性 。ndarray 数 组 对 象 拥有 ndarray.ndim、ndarray.shape、ndarray.size、ndarray.dtype、ndarray.itemsize、ndarray.data 等 属性 。 


ndarray.ndim: 数组 的 维度 数 。 


>>> x.ndim 
2 


ndarray.shape: 数组 的 维 数 ， 返 回 的 格式 为 (n，m) ， 其 中 nm 为 行 数 ，m 为 列 数 。 


>>> x.shape 
(2, 3) 


ndarray.size: 数组 元 素 的 总 数 。 


>>> X.size 
6 


ndarray.dtype: 数组 元 素 的 类 型 ， 比 如 : numpy.int32 (32 位 整 型 ) 、numpy.int16 (16 位 整 型 ) 及 numpy.float64 (64 位 浮 点 型 ) 。 


>>> x.dtype 
асуре ('float64') 





ndarray.itemsize: 数组 中 每 个 元 素 占 有 的 字 节 大 小 。 


>>> x.itemsize 


ndarray.data: 数组 元 素 的 缓冲 区 。 


>>> x.data 
«read-write buffer for Ox0557EAE8, size 48, offset 0 at 0x0561BAF0> 





















































下 面 是 一 个 关于 Numpy 的 ndarray 数 组 的 例子 ， 演 示 了 ndarray 数 组 的 基本 操作 。 


首先 ， 创 建 a 和 b 两 个 数组 对 象 。 其 中 ，a 对 象 使 用 Numpy 的 arange 函 数 产生 了 等 差 序列 数组 (Numpy 的 arange 函 数 与 Python 的 range 遂 数 类 似 ， 其 参数 依次 为 开始 值 、 结 束 值 、 步 长 ) ， 并 用 
reshape 函 数 创 建 了 指定 形状 的 新 数组 。a 的 大 小 为 (3, 5) ; b 的 大 小 为 (1, 3) 。 


>>> a = arange(15).reshape(3, 5) 
>>> a 
array([[ 0, Js 2 3 
[ 5 6, 7, 8, 93] 
2 3 
7 ] 








[10, 11, 1 
>>> b = array([6, 
>>> b 
array([6, 7, 8]) 


接着 读 取 a 和 b 的 主要 属性 ， 如 : shape, ndim, dtype, itemsize. УК, КЕЗЕН Г іурера& НЕН, type ARRA, Х)-Ғпааггаух 2, RSS 7jnumpy.ndarray, 


>>> a.shape 

(3, 5) 

>>> a.ndim 

2 

>>> a.dtype.name 
'int32' 
>>> a.itemsize 
4 

>>> a.size 

15 

>>> type (a) 
numpy.ndarray 
>>> type (b) 
numpy.ndarray 








最 后 ， 对 a 和 b 对 象 重新 赋值 ， 以 便 进 一 步 了 解 ndarray 数 组 的 元 素 类 型 。 下 面 分 别 演示 了 int32、float64 等 类 型 的 使 用 方法 ， 最 后 演示 了 不 常见 的 复数 作为 数组 元 素 (数组 c 的 元 素 ) 的 情况 。 


>>> a = array( [2, 3, 4] ) 

>>> a 

array([2, 3, 4]) 

>>> a.dtype 

dtype ('int32'!) 

>>> b = array([1.2, 3.5, 5.1]) 








>>> b.dtype 

асуре ('float64') 

>>> с = array( [ [1, 2], [3, 4] 1, dGdtype-complex ) 
>>> c 


array([[ 1.*0.j, | 2.40.3], 
[ 3.40.3, | 4.40.3]]) 








2) 特殊 数组 。Numpy 的 特殊 数组 主要 有 以 下 几 种 : 

' Zeros 数 组 : 全 零 数 组 ， 元 素 全 为 0， 使 用 zetos 函 数 创 建 。 

` ones 数 组: 全 1 数组 ， 元 素 全 为 1， 使 用 ones 函 数 创 建 。 
:empty 数组 : 空 数组 ， 元 素 全 近似 为 0， 使 用 empty 函 数 创建 。 


下 面 的 代码 依次 演示 了 全 零 数 组 、 全 1 数组 、 空 数组 的 创建 方法 。 


>>> zeros( (3,4 
























































) 
array([[0., 0., 0x5 04.15 
[0., Qs 0., О. [& 
[0., 0., 0., 0.11) 
>>> ones( (2, 3, 4), аёуре=іпі16 ) 
array([[[ 1, 1, 1, 1], 
L 2; b b 1], 
[ 1, F uii E d 
[[ l; s $ Lis 
[ 1, > m$ LIS 
L de 3 > 1]]]， dtype=int16) 
>>> empty( (5, 3) ) 
array([[ 1.42185083е-299, 1.41906197e-299, 5.77420410е-300], 
6.02082633e-300, 1.41971817e-299, 5.77379398е-300], 
[ 5.77440917e-300, 5.177386233e-300, 5.77440917е-300], 
[ 5.77386233e-300, 5.77440917е-300, 5.77386233е-300], 
[ 1.42130399e-299, 5.77440917е-300, 5.77406740е-300]1]) 

















3) БУ] Н, MJE агапдер& , Е.5РуһопАјгапдера Д, [Ej -ҒМитрув =, ELEXIUAOXZJIT SB. їн, IK. УК, ЖЕЙ 8ііпѕрасер& 622223558, ROUES 
вен, HHA, TRAE. FARREA f агаподер& #Пііпѕрасера& ЈЕВ. 


>>> arange( 10, 30, 5) 
array([10, 15, 20, 2 


>>> arange( 0, 2, 0.3) 

array([ O. , 0.3, 0.6, 0.9, 1.2; 14253 1.8]) 

>>> linspace( 0, 2, 9) # 从 0 到 2，9 个 数字 

array([ O, , 0255 025: 5 0.75, Tz. 1.255 1.55.5 1.75, 2. ]) 
>>> x = linspace( 0, 2*pi, 100) # 从 0 到 2*pi 共 100 个 数字 


4) 输出 数组 。 可 使 用 print 输 出 Numpy 的 数组 对 象 。 下 面 的 代码 是 一 维 数组 的 创建 和 输出 。 


>>> a = arange (6) # 一 维 数组 
>>> print a 
[0123 4 5] 


下 面 的 代码 是 二 维 数组 的 创建 和 输出 ， 从 输出 结果 可 清晰 地 看 出 b 的 大 小 为 (4，3) . 


>>> b = arange (12) .reshape(4，3) # 二 维 数组 
>>> print b 

[[0 1 2] 

[3 4 5] 


5) 数组 索引 。Numpy 数 组 的 每 个 元 素 、 每 行 元 素 、 每 列 元 素 都 可 以 用 索引 访问 ， 


例 ， 演 示 数 组 的 创建 、 输 出 及 索引 。 


首先 创建 三 维 数组 C， 并 输出 其 元 素 。 


>>> c = arange (24) .reshape (2, 3, 4) # 三 维 数组 
>>> print c 
[EEO 1 


























三 维 数组 c 可 表示 为 如 图 3-1 所 示 的 形式 。 


不 过 要 注意 索引 是 从 0 开始 的 。 比 如 ， 某 数组 大 小 为 (2，3) ， 则 第 2 行 第 1 列 元 素 的 索引 是 [1，0]。 下 面 以 三 维 数组 为 


一 二 一 


— 


= l. Е Dod 





图 3-1 中 单元 格 上 方 标注 了 [0，0，:]、[0， 
为 [20，21，22，23] 和 6。 下 面 编写 代码 验证 一 下 。 
>>> print c[1, 2, :] 


[20 21 22 23] 
>>> print c[0, 1, 2] 
6 





6) 数组 运算 。 数 组 的 加 减 乘除 以 及 乘 方 运算 方式 为 ， 相 应 位 置 的 元 素 分 别 进行 计算 。 
数组 加 法 : аггау([20, 31, 42, 53])=аггау([20, 30, 40, 50])+аггау([0, 1, 2, 3]) 
数组 减法 : аггау([20, 29, 38, 47])-array([20, 30, 40, 50])-аггау([0, 1, 2, 3]) 


数组 乘法 : аггау([[2, 0], [0, 41) =аггау(11, 1], [O, 11)*аггау([[2, 0], [3, 4) 


数组 乘 方 : аггау([0, 1, 2, 3]) 7 =аггау([0, 1, 4, 9]) 
数组 除法 : аггау([20., 15 


下 面 的 代码 演示 了 数组 的 加 、 减 、 乘 、 除 及 更 多 运算 (关键 代码 处 注释 了 运算 类 


>>> a = array( [20, 30, 40, 50] ) 
>>> аа = агапде (1, 5) 
>>> a/aa### 除 法 








array([ 20. А 154 А 13.33333333; 12:5 ]) 
>>> 

>>> b = arange( 4 ) 

>>> b 

array ([0, 3]) 

>>> c = a- EN 

>>> c 

array ([20, 29, 38, 47]) 

>>> р**2#### Z 

аггау ([0, 1, 4, 9]) 

>>> 10*sin(a) НЕЕ, sin 函数 为 正弦 函数 

array([ 9. 12945251, -9.88031624, 7.4511316 , -2.62374854]) 
>>> a<35### 指 定 条 件 判 j 断 后 生成 相应 的 布尔 数组 

array ([True, True, False, False], dtype=bool) 





>>> А = array( [[1, 1], [0, 11] ) 
>>> В = array( [[2, 0], [3, 4]] ) 
>>> A*BIHH E 
array([[2, 0], 
, 4]]) 
>>> #dot+ т Ян. Я]—*їЮ P 0 Z Sdn. Зр АНТ E 65 Z ЕЕ Е 45. 









































array([[5, 4], 

, 411) 

>>> а = ones((2, 3), qtype=int)###ones 函 数 创 建 全 1 数组 ， 指 定 元 素 类 型 为 in 
>>> b = random.random((2，3) ) ### 创 建 随 机 数组 ， 指 定 大 小 为 (2，3) 

>>> a *= 3### 数 乘 











>>> a 

array([[3, 3, 3], 
[33 5» 211 

>>> b += a### 加 法 

>>> b 

array([[ 3.69092703, 3.8324276 , 3. 0114541 J; 
[ 3.18679111, 3.3039349 , 3.37600289]]) 

>>> а += р Hw 

>>> а 

array([[6, 6, 6], 
[6, 6, 6]]) 

>>> a = random.random((2, 3)) 

>>> а 

array([[ 0.6903007 , 0.39168346, 0.16524769], 
[ 0.48819875, 0.77188505, 0.94792155]]) 





>>> a.sum()### 4 
3.4552372100521485 
>>> a.min () #### RJE 
0.16524768654743593 
>>> а.пах ()+### RR X4 
0.9479215542670073 





7) 数组 的 拷贝 。 数 组 的 拷贝 分 为 浅 拷贝 和 深 拷 贝 两 种 ， 浅 拷贝 通 


浅 拷贝 只 拷贝 数组 的 引用 ， 如 果 对 拷贝 


1, |:] 等 索引 ， 索 引 中 的 “:” 表 示 该 维度 内 的 所 有 元 素 。 对 照 图 3-1， 查 找 索 引 [1， 


‚ 13.33333333, 12.5])=аггау([20, 30, 40, 50])/array([1, 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 


2, ]&b (5824598350) 的 所 有 元 素 和 索引 [0，1，2] 处 的 元 素 ， 可 得 出 元 素 


比如 : 


2, 3, 4]) 





ЕК RS ABE HER 
dot (A, B) 

















过 数组 变量 的 赋值 完成 ， 深 拷贝 使 用 数组 对 象 的 copy 方 法 。 


进行 修改 ， 源 数组 也 将 修改 。 下 面 的 代码 演示 了 浅 拷贝 的 方法 。 


>>> a-ones((2, 3)) 
>>> а 
array([[ 1., ls Lal; 














RS Teg 1: 
>>> b=a#f##bDzaú9 Xd M 
>>> b[1, 2]=2 


























>>> a 

array([[ 1., ous Laly 
Е us Les  2.]]) 

>>> b 

array([[ 1., qos 21...78 
[Los les — 2«]]J 


深 拷贝 会 复制 一 份 和 源 数组 一 样 的 数组 ， 新 数组 与 源 数 组 不 会 存放 在 同一 内 存 位 置 中 ， 因 此 ， 对 新 数组 的 修改 不 会 影响 源 数 组 。 下 面 的 代码 演示 了 b 使 用 copy 方 法 从 源 数组 a 复 制 一 份 拷贝 的 情况 。 可 以 
看 到 ， 修 改 b 后 ，a 仍 然 不 变 。 
>>> a-ones((2, 3)) 


>>> b = a.copy() 
>>> b[1, 2]=2 




















>>> а 
array([[ 1., Trg 1s hs 
[же die IN 
>>> b 
array([[ 1., qos Tas 
1.9 Ls 2.11) 
2. 矩 阵 


1) 创建 矩阵 。Numpy 的 矩 阵 对 象 与 数组 对 象 相似 ， 主 要 不 同 之 处 在 于 ， 矩 阵 对 象 的 计算 遵循 矩阵 数学 运算 规律 。 和 矩 阵 使 用 matrix 函 数 创 建 ， 以 (2, 2) 大 小 的 矩阵 (2 行 2 列 ) 为 例 ， 可 用 以 下 两 种 方 
式 定 义 参数 : 


第 1 行 第 1 列 元 素 第 1 行 第 2 列 元 素 ; 第 2 行 第 1 列 元 素 第 2 行 第 2 列 元 素 ' 
[[ 第 1 行 第 1 列 元 素 ， 第 1 行 第 2 列 元 素 ]，[ 第 2 行 第 1 列 元 素 ， 第 2 行 第 2 列 元 素 ]] 
下 面 的 代码 演示 了 和 矩 阵 的 创建 及 类 型 查询 方法 。 


>>> A = matrix('1.0 2.0; 3.0 4.0')### 和 矩阵 A 











>>> A 

LE 297%] 

ГЗ.» 2.11 
>>> B = matrix([[1.0, 2.0], [3.0, 4.0] ]) HHH4EFEB 
>>> B 
matrix([[ 1., Zelo 

[ 3., 4.]]) 

>>> type(A) # 查询 R 变 量 的 类 型 
«class 'numpy.matrixlib.defmatrix.matrix'» 








2) ая, Жу КАТАА, EL. KAS. TARRA ГУНЕ НУЖА (请 先导 入 numpy 库 再 执行 以 下 代码 ) 。 











>>> А.Т HHE 
[[ 1. 3.] 

(2. 4.1] 
>>> X = matrix('5.0 7.0!) 
>>> Y = Х.Т HHE 
>>> Y 

[ [5+] 

[7.]] 
>>> print A*Y HEERE 
[[19.] 

[43.]] 
>>> print A.I Tif Е 
[[-2. 1. ] 

[ Жаш: =0..5:] 1] 
>>> solve(A, Y) # 解 线性 方程 组 
matrix([[-3.], 

[ 4.11) 





Qus 关于 Numpy 及 其 函数 的 更 多 信息 可 查阅 Numpy 官 网 : 


http://wiki.scipy.org/Numpy_Example_List 
3.1.3 pylab、matplotlib 绘 图 
为 了 验证 算法 的 有 效 性 ， 机 器 学 习 通 常 需要 进行 绘图 ，pylab、matplotlib 等 模块 是 专业 的 Python 绘图 模块 。 


1.sin 函 数 绘制 


在 二 维 坐标 系 中 绘图 的 基本 方式 是 使 用 plot 方 法 ， 其 参数 分 别 为 x 轴 数值 、y 轴 数值 ， 这 里 的 数值 可 以 是 单个 数 也 可 以 是 Numpy 的 一 维 数组 对 象 。 下 面 的 代码 演示 了 sin 函 数 图 像 的 绘制 。 


import numpy as np 

import matplotlib.pyplot as plt 
x = np.arange(0, 5, 0.1); 

y = np.sin(x) 

plt.plot(x, у) 





如 图 3-2 所 示 为 sin 函 数 图 像 效果 图 ， 从 效果 图 上 观察 ， 曲 线 清 晰 ， 坐 标 系 的 标尺 根据 绘制 参数 已 进行 自动 调整 。 
2.соѕВА 2] 
下 面 的 代码 使 用 plot 方 法 绘制 cos 了 为 数 图 像 。 


import numpy as np 

import matplotlib.pyplot as plt 
x = np.arange(0, 5, 0.1); 

y = np.cos (x) 

plt.plot(x, y) 
plt.show() 











绘图 效果 如 图 3-3 所 示 。 


тоо +Z Bv 





93-2 sin 函数 图 像 效果 图 





























£ O O + Z m E 





图 3-3 cos 函数 图 像 效 果 图 


ЕЭ 2^. 


进一步 扩充 图 3-3 所 示 cos 函 数 绘 制 范 围 ， 将 自 变 量 x 的 范围 扩大 到 [-8，8]， 三 角 遂 数 cos 图 像 的 周期 性 一 目 了 然 ， 如 图 3-4 所 示 。 下 面 是 绘制 代码 。 





import numpy as np 

import matplotlib.pyplot as plt 
х = np.arange(-8, 8, 0.1); 

у = np.cos (х) 

plt.plot(x, у) 

plt.show() 











图 3-4 cos 函数 周期 图 像 





图 3-5 ”树叶 写真 








数字 图 像 是 指 将 二 维 图 像 用 有 限 数 字 的 数值 像素 表示 ， 像 素 表面 上 看 起 来 不 像 分 离 的 点 ， 但 实质 它们 就 是 点 。 例 如 ， 图 3-5 所 示 的 树叶 写真 就 是 由 很 多 像素 点 组 成 的 ， 但 用 肉眼 无 法 观察 到 像素 点 的 存 
ft. 

我 们 使 用 一 款 取 像 素 的 软件 对 图 3-5 进 行 分 析 ， 如 图 3-6 所 示 。 可 以 看 到 ， 线 的 十 字 交 叉 处 就 是 一 个 像素 点 ， 软 件 显示 ， 在 图 像 的 [459，530] 处 像素 点 的 值 为 (64，77，67) 。 中 间 是 放大 的 这 部 分 图 片 
区 域 ， 放 大 后 ， 图 像 仿佛 由 一 个 个 小 的 颗粒 组 成 ， 将 这 些 颗 粒 进 一 步 放 大 ， 就 能 看 到 颗粒 是 由 若干 个 像素 点 组 成 ， 如 果 将 图 像 完全 放大 ， 就 能 看 清 每 个 像素 点 的 存在 了 。 

(64, 77, 67) 就 是 图 3-6 中 某 点 的 像素 值 。 每 个 像素 点 可 有 各 自 的 颜色 值 ， 可 采用 三 原色 显示 ， 因 而 又 分 成 红 、 绿 、 蓝 三 个 子 像素 (RGB 色 域 ) ， 或 者 青 、 品 红 、 黄 和 黑 (CMYK 色 域 ) ， 通 常 计 算 


机 的 图 像 采用 的 像素 标准 为 红 、 绿 、 蓝 三 个 子 色 。 图 3-6 所 示 十 字 交 又 处 的 像素 值 含义 为 : 红色 值 为 64， 绿 色 值 为 77， 蓝 色 值 为 67。 






[459, 530] 
B4, TT, BT 





图 3-6 ”树叶 放大 的 颗粒 效果 ( 附 彩 图 ) 


分 辨 率 是 度量 图 像 内 数据 量 多 少 的 一 个 参数 ， 通 常 表示 成 每 英寸 像素 数 和 每 区 寸 点 数 。 分 辨 率 越 高 ， 图 像 包 含 的 数据 越 多 ， 就 越 能 表现 更 丰富 的 细节 ， 图 形 文件 就 越 大 。 从 图 3-7 能 较 直观 地 看 出 这 个 效 
果 ， 随 着 分 辩 率 的 增加 ， 字 母 R 越 来 越 清 晰 。 


10x10 20x20 50x50 100x100 


1x1 2x2 





图 3-7 ”及 字母 在 不 同 分 辨 率 下 的 效果 


2.0penCVv 的 Python 绑 定 库 实例 


假设 图 像 的 分 辨 率 为 800x600， 则 每 一 条 水 平 线 上 包含 有 800 个 像素 点 ， 共 有 600 条 线 ， 在 计算 机 中 可 以 使 用 一 个 800 列 600 行 的 数组 来 表示 该 图 像 。 数 组 的 每 个 元 素 就 是 一 个 像素 点 ， 比 如 ， 第 100 行 
200 列 的 元 素 就 是 图 像 的 第 100 条 水 平 线 第 200 个 像素 点 的 像素 值 。 那 么 如 何 提取 图 像 中 的 像素 值 呢 ? 


可 以 使 用 OpenCV 的 Python 绑 定 库 完 成 这 些 操作 。OpenCV 作 为 跨 平台 的 计算 机 视觉 库 ， 拥 有 包括 500 多 个 跨 平台 图 像 处 理 的 中 、 高 层 API， 对 图 像 像 素 的 读 写 自然 不 在 话 下 。 


使 用 OpenCV 函 数 库 之 前 ， 需 要 先导 入 其 Python 绑 定 库 。 


import cv2 





OpenCV 函 数 对 像素 点 的 读 写 操 作 可 理解 为 对 图 像 和 矩阵 的 存 取 ，OpenCV 图 像 和 矩阵 中 每 个 像素 点 的 值 由 蓝 色 值 、 绿 色 值 、 红 色 值 3 个 部 分 组 成 ， 三 色 值 组 合成 一 个 一 维 数组 。 假 设 A 图 像 的 高 度 ( 行 数 ) 
JH, WÈ ( 列 数 ) 为 NW， 则 A 图 像 对 应 的 图 像 和 矩阵 大 小 为 HxWx3，A 图 像 和 矩阵 可 表示 H 行 W 列 ( 共 HxW 个 ) 像素 点 的 组 合 。 


如 果 想 读 取 A 图 像 150 行 20 列 处 的 像素 值 ( 设 A 的 图 像 矩阵 变量 为 img_a) ， 可 进行 如 下 访问 : 





img a[150, 20, :] 


下 面 的 代码 中 第 1 行 是 150 行 20 列 处 像素 的 蓝 色 值 ， 第 2 行 是 150 行 20 列 处 像素 的 绿色 值 ， 第 3 行 是 150 行 20 列 处 像素 的 红色 值 。 





blue-img a[150, 20, 0] 
green-img a[150, 20, 1] 


red-img a[150, 20, 2] 





下 面 以 几 个 经 典 实 例 演示 OpenCV 的 Python 绑 定 库 的 使 用 方法 。 


1) 显示 图 像 。 程 序 原理 是 ， 首 先 使 用 mread (文件 名 ) 读 取 图 像 文 件 ， 生 成 图 像 和 矩阵， 然后 调用 imshow 方 法 显示 图 像 ， 调 用 waitKey() 方 法 等 待 按键 ， 最 后 调用 destroyAllWindows() 销 毁 窗 口 ， 这 样 
可 方便 查看 图 像 。 


f!/usr/bin/env python 

#3-1.ру 

import cv2 

fne"testl.jpg" 

if name == ' main ': 
print 'http://blog.csdn.net/myhaspl' 
print 'myhasplqq.com' 























print 

print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 
img = cv2.imread (fn) 

cv2.imshow('preview', img) 


Cv2.waitKey () 
Cv2.destroyAllWindows () 





效果 如 3-8 所 示 。 


2) 随机 生成 像素 。 程 序 的 原理 是 ， 首 先 产 生 空 图 像 和 矩阵 ， 然 后 确定 矩阵 的 2000 个 随机 位 置 ， 最 后 将 随机 位 置 处 的 像素 值 设置 为 随机 数 数 组 。 下 面 是 源 代码 。 





f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
# 随 机 生成 像素 点 

#3-2 .py 

# 导 入 numpy 和 opencv 函 数 库 
import numpy as np 
import cv2 





























Lf name == ' main ': 

HTA 

521 = 200 

t0) X 

sz2 = 300 

print u') Æ = JEFE (Sd*$d) http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ (szl, 572) 
#P Ж W EB, Хо 200521522 ( 行 数 * 列 数 ) ， 本 程序 为 200*300 

img -np.zeros((szl, sz2, 3), np.uint8) 


posi-np.random.randint(200, size-(2000, 1))###{т1# Ж а.н 

pos2-np.random.randint(300, size-(2000, 1))###7# # ан 

# 在 随机 位 置 处 设置 像素 点 值 

for i in range (2000): 
img[posl[i], pos2[i], [0] 1=0р.гапаот.гапаіпі (0, 255) 
img[posl[i], pos2[i], [1] 1=пр.гапаот.гапаіпі (0, 255) 
img[posl[i], pos2[i], [2]]^np.random.randint(0, 255) 

# 显 示 图 像 

cv2.imshow('preview', img) 

# 等 待 按键 

Cv2.waitKey () 

Te 

CVv2.destroyAllWindows () 




















图 3-8 ”显示 图 像 


随机 产生 像素 点 后 ， 创 建新 窗口 并 显示 含 彩色 雪花 点 的 图 像 ， 运 行 以 上 代码 : 





产生 空 图像 矩 阵 (200*300) http://www.hzcourse.com/resource/readi 





BPS/Text/... 








效果 如 3-9 所 示 。 


Book?path-/openresources/teach ebook/uncompressed/15753/OEl 


8 preview 








图 3-9 ”随机 产生 若干 像素 点 〈 附 彩 图 ) 


3) 获取 图 像 大 小 。 程 序 通 过 图 像 和 矩阵 的 shape 属 性 获取 图 像 大 小 ，shape 返 回 tuple 元 组 ， 元 组 的 第 1 个 元 素 为 高 度 ， 第 2 个 元 素 为 宽度 ， 第 3 个 元 素 为 3 (像素 值 由 三 原色 组 成 ) 。 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#3-3.ру 
import cv2 
import numpy as np 
fn-"test2.jpg" 
if name == ' main ': 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
img = cv2.imread (fn) 
асу Еа 
sp=img. shape 
print sp 
szl=sp[0] 
# 宽 度 ， 即 列 数 
sz2-sp[1] 
print 'width:$dWMnheight:£d'$(sz2, 521) 
































оо 
T 
B 














运行 效果 如 下 ， 程 序 返 回 图 像 的 高 为 435， 宽 为 656。 











loading testl.jpg http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 
(435, 656, 3) 

width:656 

height:435 











4) 调节 图 像 亮度 。 调 节 的 原理 是 ， 将 像素 值 变 小 ， 则 将 亮度 调 小 ， 全 部 色彩 变 蜡 ; 将 像素 值 变 大 ， 则 将 亮度 调 大 ， 全 部 色彩 变 亮 。 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#3-4.ру 
import cv2 
import numpy as np 
fn-"testl.jpg" 
if name == ' main ': 
t 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
print u' 正 在 处 理 中 '， 
img = cv2.imread(fn) 
w-img.shape[1] 
h-img.shape[0] 
ii-0 
# 将 全 部 色彩 变 瞳 
for xi in xrange (0, w): 





























оо 
T 
B 




















for xj in xrange (0, h): 
# 将 像素 值 整 体 减 少 ， 设 为 原 像素 值 的 20% 


img[xj, xi, 0 

img[xj, xi, 1 

img[xj, xi, 2 
# 显 示 进 度 条 
if х1510==0 :print '.' 
cv2.namedWindow ('img') 
cv2.imshow('img', img) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 


int(img[xj, xi, 0]*0.2) 
int(img[xj, xi, 1]*0.2) 
int(img[xj, xi, 2]*0.2) 


LL uua 





> 





print'' 

print u' 正 在 处 理 中 ' , 

# 将 全 部 色彩 变 这 

for xi in xrange (0, w): 

for xj in xrange (0, h): 
# 将 像素 值 整 体 增加 ， 设 为 原 像 素 值 的 1020% 
img[xj, xi, 0]= int(img[xj, xi, 0]*10.2) 
img[xj, xi, 1]= int(img[xj, xi, 1]*10.2) 
img[xj, xi, 2]= int(img[xj, xi, 2]*10.2) 














if xi$10--0 :print '.', 
# 显 示 图 像 
cv2.namedWindow ('img') 
cv2.imshow('img', img) 


Cv2.waitKey () 
Cv2.destroyAllWindows () 








上 面 程序 将 图 像 每 个 像素 值 减 少 ， 实 现 图 像 亮 度 变 暗 的 效果 ， 如 图 3-10 所 示 。 然 后 每 个 像素 值 增 大 ， 实 现 图 像 亮度 变 亮 的 效果 。 


如 图 3-11 所 示 为 图 像 变 亮 效果 ， 因 为 像素 值 过 大 ， 已 经 出 现 失真 现象 。 





图 3-10 图像 变 暗 (ШЖ) 


5) 图 像 日 落 效 果 。 日 落 效 果 的 生成 原理 很 简单 ， 将 蓝 色 值 和 绿色 值 设 为 原来 的 70%， 红 色 值 不 变 ， 设 图 像 和 矩阵 为 Img。 代 码 如 下 : 


# 生 成 日 落 效 果 


for xi in xrange (0, w): 





for xj in xrange (0, h): 
img[xj, xi, 0]= int(img[xj, хі, 0]*0.7)###%W ë 4 79 3 89 70$ 
img[xj, хі, 1]= int(img[xj, xi, 1]*0.7) HH A 6,48 5 # 49 70% 


完整 代码 如 下 : 





图 像 变 亮 〈 附 彩 图 ) 











f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#3-5.ру 

import cv2 

import numpy as np 
fn2"testl.jpg" 

if name == ' main ': 

















print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/O 


print u' 正 在 处 理 中 '， 

img = су2.ітгеаа (Ёп) 

w=img .shape [1] 

h-img.shape[0] 

ii-0 

# 生 成 日 落 效果 

for xi in xrange (0, w): 

for xj in xrange (0 

img[xj, xi, 0] 
img[xj, xi, 1] 








ПІБ 





# 显 示 进 度 条 

if xi$10--0 :print '. 
# 显 示 图 像 
cv2.namedWindow ('img') 
cv2.imshow('img', img) 


Cv2.waitKey () 
Cv2.destroyAllWindows () 





运行 效果 如 图 3-12 所 示 。 





, h) 
int(img[xj, xi, 0]*0.7)3HH 3 644 73/8 3 89708; 
int 


(img[xj, xi, 1]*0.7) HHE ë 4Ë 79 f 3 89 70$ 


Y 
> 





EBPS/Text/...' 





in 





图 3-12 ”图 像 日 落 效果 ( 附 彩 图 ) 


6) 负片 与 水 印 效果 。 生 成 负片 的 原理 是 ， 将 像素 的 三 色 值 设 为 (255- 原 值 ) 。 设 图 像 和 矩阵 为 mg， 代码 如 下 : 


к = cv2.split (img) 


2А АЧ, WüFdputlTextE&Zk, LAESGOBEE/SSB T7 EA, 257821295, EERE hK. RANT : 








# 加 上 水 印 


cv2.putText (img, "machine learning", 

















(20, 20), cv2.FONT HERSHEY PLAIN, 2.0, (0, 0, 0), thickness - 2) 





cv2.putText (img, "Support Vector Machines (SVMs) 15 an algorithm ` 








of machine learning.", 











(20, 100), cv2.FONT HERSHEY PLAIN, 1.0, (0, 0, 0), thickness = 2) 





负片 与 水 印 效果 的 完整 代码 如 下 : 


#!/usr/bin/env python 





#-*- coding: utf-8 -*- 


#3-6.ру 
import cv2 
import numpy as np 
fn-"testl.jpg" 
if папе == ' 








main  ': 





print 'loading $s 
print u' 正 在 处 理 中 ' 
# 读 取 图 像 文件 





img = cv2.imread(f 


# 获 取 图 像 大 小 
w=img .shape [1] 
h-img.shape[0] 
ii-0 








http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 
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n) 


b, g, r = cv2.split (img) 


жаза 


img[:, 


img[:, : 
# 加 上 水 印 


cv2.putText (img, "machine learning", 





(20, 20), cv2.FONT HERSHEY PLAIN, thickness = 2) 


cv2.putText (img, "Support Vector Machines (SVMs)is an algorithm 








of machine learning.", 





(20, 100), cv2.FONT HERSHEY PLAIN, 1.0, (0, 0, 0), 


cv2.namedWindow ('img') 


cv2.imshow('img', 
Cv2.waitKey () 





img) 


Cv2.destroyAllWindows () 


运行 效果 如 图 3-13 所 示 。 
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图 3-13 负片 和 水 印 效果 《 附 彩 图 ) 


7) 图 像 平 铺 。 图 像 平 铺 的 原理 是 ， 首 先 计 算 平 铺 后 的 图 像 大 小 ， 生 成 同样 大 小 的 空白 图 像 ， 然 后 在 空白 图 像 中 逐个 像素 复制 图 像 ， 直 接 将 空白 图 像 像素 值 设 置 为 平 铺 后 该 位 置 对 应 的 像素 值 ， 复 制 的 顺 
序 是 逐 行 复制 ， 横 向 平 铺 5 个 图 像 ， 纵 向 平 铺 2 个 图 像 ， 最 后 显示 图 像 效果 。 下 面 是 完整 代码 : 





f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#3-7.ру 

import cv2 

import numpy as np 
fn-"test.png" 

















if name == ' main ': 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 

















print ' 正 在 处 理 中 '， 
img = cv2.imread (fn) 
w=img.shape [1] 
h-img.shape[0] 














# 横 向 平 铺 5 个 图 像 

szl=w*5 

# 纵 向 平 铺 2 个 图 像 

sz0=h*2 

# 创 建 空白 图 像 ， 然 后 将 图 片 排 列 
myimgl-np.zeros((sz0, szl, 3), np.uint8) 
# 逐 个 像素 复制 

img х=0 

img у=0 

for now y in xrange(0, sz0): 
# 增 加 行 数 





for now x in xrange (0, 521): 

# 复 制 对 应 位 置 的 图 像 像 素 点 

myimgl[now y, now x, 0]=img[img у, img x, 0] 
myimgl[now y, now x, l]-img[img y, img x, 1] 
myimgl[now y, now x, 2]-img[img y, img x, 2] 











# 增 加 列 数 
img х+=1 
if img x>=w: 
img x=0 
img у+=1 ° 
if img y»-h: 
img y-0 
print '.', 
cCv2.namedWindow ('imgl') 
cv2.imshow('imgl', myimgl) 


Cv2.waitKey () 
Cv2.destroyAllWindows () 





运行 效果 如 图 3-14 所 示 。 





图 3-14 图 像 平 铺 


8) 转 置 并 平 铺 图 像 。 与 刚才 的 例子 相似 ， 但 多 了 一 步 转 置 操作 。 转 置 的 原理 是 将 图 像 矩阵 转换 为 它 的 转 置 和 矩阵 ， 转 置 算法 是 将 新 图 像 矩 阵 [h，w] 处 的 像素 设 为 原 图 像 矩阵 [w，h] 处 的 值 (这 里 的 值 是 
一 维和 矩阵 ) ， 相 当 于 和 矩阵 转 置 的 算法 。 设 myimg1 为 图 像 和 矩阵， 编写 代码 如 下 : 





for now y in xrange(0, 520): 
for now x in xrange (0, 521): 
myimgl[now x, now y, :]-img[img y, img x, :| 








转 置 并 平 铺 图 像 完整 代码 如 下 : 





f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq.com 
#3-8.ру 

import cv2 






































import numpy as np 

fn-"test.png" 

if name == ' main ': 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 
print 'working', 





img = cv2.imread(fn) 

w=img .shape [1] 

h-img.shape[0] 

#w 为 宽度 ，h 为 高 度 

szl=w*2 

sz0=h*3 

# 创 建 空白 图 像 ， 然 后 将 图 片 排列 
myimgl-np.zeros((szl, sz0, 3), np.uint8) 
# 翻 转 并 生成 图 像 

# 逐 个 复制 像素 

img х=0 

img у=0 

for now y in xrange(0, 520): 

for now x in xrange(0, sz1): 














# 旋 转 图 像 
myimgl[now x, now y, :]-img[img y, img x, :] 
img x+=1 — i B Е 
# 新 的 一 次 平 铺 
if img x>=w: 
img x=0 
img yt-1 7 
# 新 的 一 次 平 铺 
if img y>=h: 
img y=0 
print t: 
cv2.namedWindow ('imgl') 
cv2.imshow ('img1', myimgl) 


cv2.waitKey () 
cv2.destroyAllWindows () 








运行 效果 如 图 3-15 所 示 。 





图 3-15 “图像 旋转 和 平 铺 





本 节 的 两 个 例子 是 对 上 节 内 容 精 华 的 总 结 ， 较 好 地 综合 了 OpenCV 的 基础 功能 。 





图 像 融 合 的 原理 是 ， 让 新 图 像 的 每 个 像素 成 为 两 个 源 图 像 中 对 应 像素 的 平均 值 之 和 ， 即 : 将 两 个 图 像 的 像素 值 取 50% 后 相 加 。 为 简化 计算 ， 直 接 选 取 其 中 一 个 源 图 像 作 为 新 图 像 ， 设 新 图 像 矩 阵 为 
myimg2， 编 写 代码 如 下 : 





# 每 个 像素 为 2 个 像素 的 平均 值 
for y in xrange (0, sz0): 
for x in xrange (0, sz1): 
myimg2[y, x, :]=myimg1[y, x, :]*0.5+myimg2[y, x, :]*0.5 











完整 代码 如 下 (关键 之 处 有 注释 ) : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#3-9.ру 

import cv2 

import numpy as np 

fnl-2"hel.jpg" 

fn2-2"he2.jpg" 

if name == ' main ': 
print 'working', 
myimgl = cv2.imread(fnl) 
myimg2 = cv2.imread(fn2) 
# 取 得 图 像 大 小 
w-myimgl.shape[1] 
h-myimgl.shape[0] 
Szl-w 
sz0=h 
# 每 个 像素 为 2 个 像素 的 50% 之 和 ， 进 行 图 像 融合 

for y in xrange (0, sz0): 

for x in xrange (0, sz1): 
myimg2[y, x, :l=myimglly, x, :]*0.54myimg2[y, x, :]*0.5 





























print '.', 
Cv2.namedWindow ('img2') 
cv2.imshow('img2', myimg2) 


Cv2.waitKey () 
Cv2.destroyAllWindows () 








效果 如 图 3-16 所 示 。 





图 3-16 ”图 像 融 合 


2. 图 像 镜 像 


图 像 纵向 镜像 的 原理 是 ， 首 先 获取 图 像 的 宽度 ， 将 宽度 的 50% 取 整 后 作为 图 像 的 纵向 中 线 ; 然后 以 中 线 为 轴 ， 将 图 像 左 边 反 向 复制 到 图 像 右边 ， 使 图 像 最 右边 一 列 的 像素 点 等 于 图 像 最 左边 一 列 的 像素 
点 。 比 如 ， 图 像 大 小 为 200x300 (高 200， 宽 300) ， 第 180 行 170 列 (索引 为 [180，170，:]) 的 像素 点 值 为 第 180 行 第 130 列 的 像素 点 值 (300-170=130) 。 


2 
о 


横向 镜像 与 纵向 镜像 类 似 ， 不 同 之 处 在 于 将 高 度 的 30% 取 整 后 作为 图 像 的 横向 中 线 ， 复 制 时 是 最 下 边 一 行 的 像素 点 值 等 于 最 上 边 一 行 的 像素 点 值 。 


纵向 镜像 可 按 如 下 形式 编写 代码 : 





# 纵 向 生成 镜像 
mirror w=w/2 

for j in xrange (0, h): 

for i in xrange(0, mirror w): 
img[j, EN :]-img[j, м-1-1, s] 











下 面 的 代码 演示 了 图 像 的 纵向 镜像 。 


f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#3-10.ру 

import cv2 

import numpy as np 





























if name == ' main ': 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 











print ' 正 在 处 理 中 '， 

img = cv2.imread (fn) 

w=img.shape [1] 

h=img.shape [0] 

ii-0 

# 纵 向 生成 镜像 

mirror w=w/2 

for j in xrange (0, h): 

for i in xrange (0, mirror w): 
img[j, 1, :]=img[j, w-i Е 











print "'i', 
# 显 示 图 像 
cv2.namedWindow ('img') 
cv2.imshow('img', img) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 








运行 效果 如 图 3-17 所 示 。 
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图 3-17 图 像 镜像 








3.1.6 图像 灰 度 化 与 图 像 加 品 
1. 图 像 灰 度 化 
图 像 灰 度 化 的 原理 是 ， 彩 色 图 像 中 的 每 个 像素 的 颜色 由 R、G、B 三 个 分 量 决 定 ， 而 每 个 分 量 的 取 值 范围 为 0~255。 而 灰 度 图 像 是 8R、G、B 三 个 分 量 相 同 的 一 种 特殊 的 彩色 图 像 ， 其 算法 有 以 下 两 种 : 
1) 求 出 每 个 像素 点 的 R、G、B 三 个 分 量 的 平均 值 ， 然 后 将 这 个 平均 值 赋予 给 这 个 像素 的 三 个 分 量 。 
2) 根据 RGB 和 YUV 颜 色 空间 的 变化 关系 ， 建 立 亮度 Y 与 R、G、B 三 个 颜色 分 量 的 对 应 关系 : Y=0.3R+0.59G+0.11B， 以 这 个 亮度 值 表达 图 像 的 灰 度 值 。 
OpenCV 有 相关 的 遂 数 cvtColor， 用 它 可 直接 完成 灰 度 化 操作 。 设 img 为 源 图 像 和 矩阵 ，myimg1 为 灰 度 化 后 的 目标 图 像 和 矩阵， 编写 代码 如 下 : 


# 复 制 并 转换 为 灰 度 化 图 像 
myimgl-cv2.cvtColor(img, cv2.COLOR BGR2GRAY) 





下 面 的 代码 演示 了 图 像 的 复制 与 图 像 的 灰 度 化 操作 。 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#3-11.ру 

import cv2 

import numpy as np 

fn-"test2.jpg" 

if | name == ' main ': 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 
img = cv2.imread(fn) i 
sp=img. shape 
print sp 
# 获 取 图 像 大 小 
#height 
szl=sp[0] 
#width 
sz2=sp[1] 
# 显 示 图 像 大 小 
print 'width:$dMnheight:£d'$(sz2, 521) 
# 创 建 一 个 窗口 并 显示 图 像 
CV2. ed E ү 
cv2.imshow('img' 
# 复 制图 像 矩 阵 ， 生 成 与 源 rou 图 像 ， 并 显示 
myimg2- img.copy(); 
cv2.namedWindow ('myimg2') 
cv2.imshow('myimg2', myimg2) 
# 复 制 并 转换 为 灰 度 化 图 像 ， 并 显示 
myimgl=cv2.cvtColor (img, cv2.COLOR BGR2GRAY) 
cv2.namedWindow ( 'myimo1 ') i 
cv2.imshow('myimgl', myimgl) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 





























上 面 的 代码 生成 了 与 源 图 像 一 样 的 新 图 像 ， 并 生成 了 另 一 个 源 图 像 的 灰 度 化 图 像 ， 运 行 效果 如 图 3-18 所 示 。 








图 3-18 BRKE (MA) 


现在 大 部 分 的 彩色 图 像 都 是 采用 RGB 颜色 模式 ， 处 理 图 像 的 时 候 ， 要 分 别 对 RGB 三 种 分 量 进 行 处 理 。 实 际 上 RGB 并 不 能 反映 图 像 的 形态 特征 ， 只 是 从 光学 的 原理 进行 颜色 的 调配 。 把 图 像 转换 成 8 位 的 灰 
度 值 图 像 直 接 进 行 处 理 ， 可 以 通过 直方 图 、 灰 度 变 化 及 正 交 变换 之 类 数学 运算 对 图 像 做 进一步 处 理 ， 比 如 说 图 像 识别 等 。 如 果 有 必要 ， 可 将 图 像 二 值 化 ， 这 样 有 利于 对 图 像 进一步 处 理 ， 使 图 像 数 据 量 减 
小 ， 突 显 出 感 兴趣 的 目标 的 轮廓 。 如 图 3-19 所 示 为 某 汽车 图 像 二 值 化 的 效果 。 





图 3-19 ”图 像 二 值 化 


2. 图 像 加 噪 


给 图 像 人 为 加 噪 的 原理 是 ， 将 图 像 若干 个 像素 点 的 值 设 为 噪声 点 的 值 。 比 如 ， 为 图 像 加 上 很 多 像素 值 为 [25，20，20] 的 像素 点 ， 编 写 代码 如 下 : 





for k in xrange(0, coutn): 
xi = int(np.random.uniform(0, img.shape[1])) 
xj = int(np.random.uniform(0, img.shape[0])) 























if img.ndim == 2: 
# 灰 度 图 像 
img[xj, xi] = 255 
elif img.ndim -- 


HEKER, Bhk 
img[xj, xi, 0]= 25 
img[xj, xi, 1]- 20 
img[xj, xi, 2]= 20 





上 面 的 代码 对 img.ndim 进 行 判断 的 用 意 在 于 ， 如 果 图 像 是 灰 度 化 图 像 ， 则 img.ndim 为 2， 灰 度 化 图 像 的 像素 值 不 存在 红 、 绿 、 蓝 三 色 之 分 ， 仅 有 灰 度 值 ， 因 此 像素 值 仅 需要 一 个 ， 将 对 应 噪声 点 位 置 的 
值 设 为 255 即 可 。 


下 面 的 代码 演示 了 图 像 加 噪 的 算法 ， 为 彩色 图 像 人 为 加 上 100000 个 色彩 随机 的 噪声 点 。 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#3-12.ру 

import cv2 

import numpy as np 
ое REM xF £ 
fn="testl.jpg" 



































if name == ' main ': 
# 加 载 图 像 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 





img = cv2.imread(fn) 
FRESKE 
coutn=100000 
for k in xrange(0, coutn): 
# 获 取 图 像 骂 声 点 的 随机 位 置 
xi = int(np.random.uniform(0, img.shape[1])) 
xj = int(np.random.uniform(0, img.shape[0])) 
TA oa E E, 
if img.ndim -- 2: 
img[xj, xi] = 255 


Е img.ndim == 3: 























з 


zd 





img[xj, xi, 0] 

img[xj, xi, 1] 

img[xj, xi, 2] 
cv2.namedWindow ('img') 
cv2.imshow('img', img) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 

















运行 效果 如 图 3-20 所 示 。 
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上 述 程序 的 运行 原理 是 将 图 像 数据 矩阵 随机 位 置 的 像素 点 设 为 (25，20，20) ， 当 随机 的 像素 点 数量 较 大 时 ， 就 在 图 像 上 生成 了 噪声 。 


加 上 噪声 的 图 像 是 为 了 实验 图 像 识别 的 效果 ， 有 些 机 器 学 习 算 法 对 没有 噪声 的 图 像 识 别 的 效果 很 好 ， 但 如 图 3-20 这 种 噪声 较 多 的 情况 效果 就 很 不 理想 了 ， 因 为 在 实际 工程 应 用 中 ， 很 难保 证 采集 到 的 图 
像 清 晰 可 靠 ， 所 以 需要 人 为 给 图 像 加 上 噪声 ， 以 方便 后 期 对 算法 效果 进行 验证 。 


声音 是 由 物体 的 机 械 振 动 形成 的 ， 发 生 声音 的 振动 源 叫 作 “ 声 源 ”。 振 动 着 的 鼓 皮 、 琴 弦 、 扬 声 器 等 都 是 声 源 ， 人 的 声带 也 是 声 源 。 声 音 必 须 通 过 媒质 才能 传播 ， 空 气 、 水 、 金 属 、 木 材 等 是 最 常见 的 
媒质 。 声 波 的 频率 是 每 秒 钟 往复 振动 的 次 数 ， 一 来 一 往 为 一 次 ， 又 称 一 周 ， 声 波 的 频率 也 就 是 声音 的 频率 ， 频 率 单位 为 赫兹 (Hz) ， 每 秒 振动 一 周 为 1Hz。“ 波 长 ”是 声 源 每 振动 一 周 声波 所 传播 的 距离 ， 
频率 越 高 则 波长 越 短 ， 波 长 同 频率 成 反比 。 


“相位 ”可 简称 为 “ 相 ”。 一 般 地 说 ， 相 位 是 用 来 描述 简 谐 振动 的 ， 在 一 个 周波 之 内 ,任何 一 点 的 “ 相 ” 都 不 相同 ， 各 对 应 于 一 个 确定 的 相位 角 值 ， 而 在 另 一 个 周波 ， 各 种 相位 将 会 重复 出 现 。 所 以 在 
声波 传播 的 路 径 上 ， 每 隔 一 个 波长 的 距离 ， 其 相位 相同 。 


声音 的 音调 是 由 它 的 基 频 决定 的 ， 基 频 越 高 则 音调 也 越 高 。 如 在 音乐 中 中 央 C 的 基 频 是 261.6Hz， 而 A 调 的 基 频 则 是 440Hz。 通 常 将 声音 分 为 以 下 频带 : 20Hz、25Hz、31.5Hz、40Hz、50Hz、63Hz、 
80Hz、100Hz、125Hz、160Hz、200Hz、250Hz、315Hz、400Hz、500Hz、630Hz、800Hz、1kHz、1.25kHz、1.60kHz、2.0kHz、2.5kHz、3.15kHz、4.0kHz、5.0kHz、6.3kHz、8.0kHz、10kHz、 
12.5kHz、16kHz、20kHz。 一 般 来 说 ， 人 耳 可 感受 的 正弦 波 的 范围 是 从 20Hz 的 低频 声音 到 20kHz 的 高 频 声 。 


声音 波 波 形 属 于 正弦 波 ， 拥 有 振幅 和 频率 两 个 特征 ， 振 幅 就 是 音量 ， 频 率 就 是 音调 。 下 面 调用 Python 的 WAV 声 音 处 理 库 以 及 Numpy 科 学 计算 库 显示 一 段 声音 的 波形 。 
显示 声音 波形 数据 的 主要 步骤 如 下 : 


1) 打开 WAV 文 件 ， 使 用 wave 库 的 open 方 法 ， 主 要 参数 为 文件 名 和 存 取 文件 方式 。 


# 以 读 方 式 打 开 WAV 文 档 
f = wave.open (r"back.wav",  "rb") 





2) 读 取 格式 信息 ， 使 用 wave 库 的 getparams 方 法 。 该 方法 返回 的 信息 中 比较 重要 的 是 前 4 项 ， 依 次 为 通道 数 、 样 本 宽度 、 样 本 频率 、 波 形 数据 长 度 。 





# 读 取 格 式 信息 

#(nchannels, sampwidth, framerate, nframes, comptype, Ccompname) 
params = f.getparams () 

nchannels, sampwidth, framerate, nframes = params[:4] 











3) 读 取 波形 数据 ， 波 形 数据 是 WAV 文 件 采样 后 生成 的 采样 数据 ， 使 用 wave 库 的 readframes 方 法 读 取 ， 该 方法 返回 的 数据 是 字符 类 型 。 


# 读 取 波 形 数据 














str data = f.readframes (nframes) 





4) 转换 波形 数据 为 Numpy 的 整 型 数组 对 象 。 


# 将 波形 数据 转换 为 数组 

wave data = np.fromstring(str data, dtype=np.short) 
wave data.shape = -1, 2 

wave data = wave data.T 

















5) 计算 时 间 轴 。 





time = np.arange(0, nframes) * (1.0 / framerate) 


6) 绘制 波形 ， 绘 制 前 调用 pylab 的 subplot 方 法 创建 两 个 上 下 形式 的 绘图 区 ， 每 个 绘图 区 各 绘制 一 个 声 道 的 数据 。 下 面 程序 中 subplot 方 法 的 参数 共 3 位 整数 ， 从 左边 开始 每 位 依次 表示 绘图 区 总 数 、 列 
创建 区 域 所 属 绘图 的 索引 ， 比 如 subplot(212) 表 示 绘 图 区 有 2 个 ， 一 共 1 列 ， 当 前 索引 为 第 2 个 绘图 


Règ 
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# 绘 制 Ж 形 

# 创 建 上 边 的 绘图 区 
subplot (211) 
# 绘 制 左 声 道 
pl.plot(time, wave data[0]) 
# 创 建 下 边 的 绘图 区 

pi.subplot (212) 
# 
p 
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绘制 右 声 道 
l.plot(time, wave data[1], c="g") 





上 述 绘制 声音 波形 过 程 的 完整 代码 如 下 : 


#!/usr/bin/env python 

# -*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#3-13.ру 

import wave 

import pylab as pl 



























































import numpy as np 
print 'workinghttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
# 打 开 WAV 文 档 
f = wave. puts "back.wav",  "rb") 
# 读 取 格 式 信 息 
#(nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams () 
nchannels, sampwidth, framerate, nframes = params[:4] 
# 读 取 波 形 数 据 
str data = f.readframes (nframes) 
Е.сІозе () 





ПЕТЕРА 

wave data = np.fromstring(str data, dtype-np.short) 
wave data.shape = -1, 2 

wave data = wave data.T 


time = np.arange(0, nframes) * (1.0 / framerate) 



























































# 绘 制 波形 

pl.subplot (211) 

pl.plot(time, wave data[0]) 
pl.subplot (212) 

pl.plot (time, wave data[1], c="g") 
pl.xlabel("time (seconds) ") 
pl.show() 





程序 读 取 声音 文件 后 ， 绘 制 出 如 图 3-21 所 示 的 波形 。 


这 个 波形 表现 出 : 声音 信和 号 较 连 续 ， 随 着 时 间 的 推移 ， 变 化 不 明显 ， 没 有 停顿 ， 因 此 ， 这 是 一 段 音 乐 或 噪声 等 声音 而 不 是 人 声 ， 因 为 人 说 话 的 声音 有 个 特点 ， 就 是 每 个 字 之 间 有 少量 停顿 。 语 音 停 顿 期 
间 ， 声 音 采 样 软件 采样 不 到 数据 ， 过 了 这 个 停顿 期 ， 波 形 会 有 明显 的 变化 ， 如 图 3-22 所 示 波 形 就 是 典型 的 说 话 声音 波形 。 


- 


3.1.8 ”声音 音量 调节 


声音 音量 的 调节 方式 与 图 像 亮 度 调整 类 似 ， 不 同 的 是 音量 调节 的 是 波形 大 小 。 音 量 调节 通过 调节 采样 波形 的 大 小 实现 ， 采 样 数据 变 大 时 ， 声 音 音量 放大 ， 采 样 数 据 变 小 时 ， 声 音 音量 降低 。 音 量 不 能 无 
限 调节 ， 音 量 过 大 或 过 小 ， 会 形成 难听 的 噪音 ， 使 声音 失真 。 


boo +e 5B 





] 


B 
Е. 








0 4 6 8 10 12 1 1 


下 面 编写 代码 演示 音量 的 放大 。 为 保证 声音 
波形 数据 ，dwmax 为 上 限 ，dwmin 为 下 限 ， 该 




















def wavechange (x, dwmax, dwmin): 
if х!=0: 
if abs (x)»dwmax: 
x=x/ abs (x) *dwmax 
elif abs (x)«dwmin: 
х=х/арѕ (x) *dwmin 
else: 
х=х*1.5 
return X 


为 保证 放大 后 声 


使 用 wave _data.max(0 获 取 原 声 


# 放 大 音量 


change dwmax=wave da 
change dwmin=wave da 


wave change 














= np.frompy 





ta.max()/1 
ta.max()/1 
Гипс (wavechange, 3, 1) 


00*88 
00*14 





质量 =, 需要 对 音 
国 数 仅 会 将 上 限 与 下 限 之 间 区 域内 的 数据 放大 为 原来 的 1.5 倍 ， 


音 不 失真 ， 可 采用 以 原声 音 为 基准 的 放大 策略 ， 声 音波 形 图 像 类 似 正弦 函数 图 像 ， 在 以 时 间 轴 为 X 轴 、 
的 最 大 值 为 依据 计算 上 下 限 ， 上 限 为 原声 音 数据 最 大 值 的 88%， 下 限 为 原声 音 数 据 最 大 值 的 14%。 


音波 形 的 最 大 数据 值 (max 国 数 返 回 数组 的 最 大 值 ) ， 然 后 通过 frompyfunc 函 数 设置 调节 音量 的 回调 函数 为 刚刚 定义 的 wavechange 函 数 ， 


范围 设置 上 限 和 下 限 (以 原声 音 为 基准 计算 上 限 、 下 限 ) 。 
在 此 区 域外 的 数据 则 设置 为 上 限 或 下 限 。 


new wave data -wave change (wave data, change dwmax, change dwmin) 


音 数据 放大 后 ， 





然后 ， 设 置 新 文件 的 数据 参数 为 源 文件 的 数据 参数 ， 并 写 到 新 声音 文件 中 。 放 大 音 


fo = wave.open (r"jg.wav", 


# 写 波形 数据 参数 


print "save 
fo.se 


fo.set 














new wav 








"wb "Ç ) 


tnchannels (nchannels) 
framera 

















fo.se 


tsampwid 


te (framera 
th (sampwid 








te) 
th) 


最 后 调用 writeframes() 方 法 ， 以 放大 后 








Fo.write 








下 面 的 代码 演示 了 放大 音 


f!/usr/bin/env python 


# -*- coding: uti 


=k 


F-8 





#code :myhaspl(qq. com 


#3-14.ру 

import wave 
import 
import 


pylab as pl 
numpy as np 





def 








if х!=0: 


p--* 


ka. 


e] 


f abs (x)»dwmax: 


frames (new str data) 


算法 ， 并 绘 


E wavechange (x, dwmax, dwmin): 


x-x/abs (x) *dwmax 











els 


Е abs (x) «dwmi 


n: 


x-x/abs (x) *dwmin 


e: 
х=х*1.5 


return X 


# 打 开 WAV 文 档 





f = wave.open (r" speak. Wav Р 
fo = wave.open (r"jg.wav" 


# 读 取 波 形 数据 


# (nchannel 
params = f 
nchannels, 
prin 


s 





, sampwidth, 


.getparams () 





sampwidth, 





str data - 








F.readframes( 


"т rb "т ) 
"wl "т ) 





framerate, 


framerate, 





nframes) 


# 将 波形 数据 转换 为 数组 ， 并 更 改 





print "upda 





te wav da 








wave data = 
params = f 
nchannels, 





trin 





np.froms 


Пі 


fileshttp://www.hzcourse.com/resource/read 


需要 将 新 数据 写 入 新 的 声音 文件 中 。 首 先 以 写 方式 新 建新 声音 文件 : 


没有 改变 格式 信息 ， 因 此 ， 放 大 后 的 声音 音 的 格式 信息 一 样 。 


жей 


Book?path-/openresources/teach ebook/uncompressed/15753/OE 














BPS/Text/..http://www.hzcourse.com/resource/readl 


Hlk, fii wavechangeeRZ&, HARE, Бех ЕЈ 


采样 数据 为 Y 轴 的 坐标 系 中 ， 波 形 数据 可 正 可 负 ， 上 下 波动 。 因 此 ， 以 原声 音 数据 


最 后 对 数据 进行 放大 调节 。 





Book?pat 











音 数据 为 参数 将 数据 写 入 新 建 的 声音 文件 中 。 


I 出 了 源 声 





n 


frames 





frames, 


comptype, 


— params[:4] 
t "read wav datahttp://www.hzcourse.com/resource/read 


音波 形 与 放大 后 的 声 


音波 形 。 


compname) 


A 











BPS/Text/..http://www.hzcourse.com/resource/read 





Book?path-/openresources/teach ebook/uncompressed/15753/O0E 




















.getparams () 


sampwidth, 





str data = 
# 放 大 音量 

change dwma 
change dwmi 
wave change 
new wave da 
new wave da! 
new si 








F.readframes( 





са. 
са. 


x-wave da 
n-wave da 
np.frompy 
—wave chan 
-new wave 














та 
са 











tr data- -new wave í data. 


FS UU ANAA 


print ' 
fo.se 
Fo . Se 


'save 
tnchan 
frame 








g (str data, 


framerate, 





nframes) 


00*88 
00*14 


ax()/1 
ax()/1 





Пі 


tahttp://www.hzcourse.com/resource/read 


us 


Book?path-/openresources/teach ebook/uncompressed/15753/O0E 








BPS/Text/..http://www.hzcourse.com/resource/read 








Book?path-/or 





Book?path-/ 











dtype-np.short) 


frames 





Гипс (wavechange, 3, 1) 


— params[:4] 


ge(wave data, change ， dwmax, change dwmin) 


dat 








new wav file 
nels (nchannel 
rate(framerat 














sh 
S) 














fo.se 
Fo.wri 
# 绘 制 源 声 
wave data.s 
wave data 
time : = np.a 
. Subp] ot ( 














се 








tsampwid 


一 一 一 








th t 


hape = -1, 2 

wave_data.T 
range (0, 
221) 











.plot ( 
. Subpl 








ot ( 


time, 


wave data 


222) 














.plot( 
.Xlabel (" 








каша 





time, 





wave data 


time (seconds 





# 绘 制 放大 音量 波形 


new wave da! 
new wave data 


t( 


ta.shape = -1 





.arange (0, 





223) 





sampwidt 
frames (new str data) 
音波 形 


nframes) 


—new wave { 


e) 
h) 


* 


[0]) 
[1], 
)") 


, 2 
data.T 
nframes) 


c="g") 


大 





























О 


.Xlabel(" 





time, 


time (seconds 








L.show () 


如 图 3-23 所 示 波 形 图 中 ， 上 部 为 源 声 音 ， 下 部 显示 了 音 
后 ， 可 听 到 音 


量 放大 后 从 


) ") 


9 声音 效果 。 


(1.0 / 


new wave data[1], 





са. astype (wave | data. dtype) 
tostring|() 


tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0E 


framerate) 


(1.0 / framerate) 


с="9") 


x 














BPS/Text/..http://www.hzcourse.com/resource/read 





Book?pat 








量 放 大 后 的 波形 。 下 部 的 波形 数据 范围 为 -20000~20000， 而 上 部 范围 为 -15000~ 15000， 下 部 波形 整体 比 上 部 大 很 多 。 下 载 本 书 的 代码 包 运 行 


E 





Фоо + Z 





图 3-23 ”声音 音量 放大 波形 


音量 降低 可 通过 将 采样 波形 变 小 来 实现 ， 具 体 来 说 ， 就 是 把 每 个 采样 数据 按 指定 比例 缩小 ， 同 时 将 缩小 幅度 控制 在 合理 的 范围 内 ， 保 证 音量 降低 后 声音 仍然 清 


1) 根据 上 下 限 参数 对 波形 数据 进行 调节 ， 定 义 缩小 波形 数据 的 函数 为 wavechange。 





def wavechange (x, dwmax, dwmin): 








if х!=0: 
if abs(x)«dwmax and abs (x)»dwmin: 
x-x*0.5 
else: 
x-x*0.2 
return X 


2) 与 放大 音量 类 似 ， 以 源 声音 波形 数据 的 最 大 值 为 基准 ， 计 算 上 限 和 下 限 ， 以 wavechange 为 回调 函数 ， 降 低音 量 。 





# 降 低音 量 

change dwmax=wave data.max()/100*1 

change dwmin=wave data.max()/100*0.5 

wave change = np.frompyfunc (wavechange, 3, 1) 

new wave data -wave change(wave data, change dwmax, change dwmin) 




















3) 生成 新 波形 数据 。 


new wave data -new wave data.astype (wave data.dtype) 
new str data-new wave data.tostring() 





4) 将 数据 写 到 新 声音 文件 。 





# 写 波形 数据 参数 
fo.setnchannels (nchannels 


£ - =d 


o.setframerate (framerate 
E. bis 


) 
) 
fo.setsampwidth (sampwidth) 
fo.writeframes (new str data) 























下 面 的 代码 演示 了 降低 音量 算法 。 


#!/usr/bin/env python 

# -*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#3-15.ру 

import wave 

import pylab as pl 

import numpy as np 

print 'workinghttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
def wavechange (x, dwmax, dwmin): 








I 



































if х!=0: 
if abs(x)«dwmax and abs (x)»dwmin: 
x-x*0.5 
else: 
х=х*0.2 
return х 
# 打 开 WAV 文 档 
f = wave.open(r"back.wav", "rb") 
fo = wave.open(r"jg.wav",  "wb") 
# 读 取 波 形 数 据 
#(nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams () 








nchannels, sampwidth, framerate, nframes = params[:4] 

print "read wav datahttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/or 
str data = f.readframes (nframes) 

# 将 波形 数据 转换 为 数组 ， 并 更 改 

print "update мау datahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/ 
wave data = np.fromstring(str data, dtype-np.short) 


I 












































I 



























































params = f.getparams|() 

nchannels, sampwidth, framerate, nframes = params[:4] 
str data = f.readframes (nframes) 

# 降 低音 量 


change dwmax=wave data.max()/100*1 

change dwmin=wave data.max()/100*0.5 

wave change = np.frompyfunc (wavechange, 3, 1) 

new wave data -wave change (wave data, change dwmax, change dwmin) 
new wave data =new wave data.astype (wave data.dtype) 

new str data-new wave data.tostring() 

# 写 波形 数据 参数 
print "save new wav fileshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?pat 
fo.setnchannels (nchannels) 
Fo.setframerate (framerate) 
fo.setsampwidth (sampwidth) 
Fo.writeframes (new str data) 

# 绘 制 源 声 音波 形 

wave data.shape = -1, 2 

wave data = wave data.T 

time = np.arange(0, nframes) * (1.0 / framerate) 
l.subplot (221) 
.plot(time, wave data[0]) 
. subplot (222) i 
.plot (time, wave data[1], с="9") 

pl.xlabel ("time (seconds)") 

井 绘制 降低 音量 波形 

new wave data.shape = -1, 2 

new wave data -new wave data.T 

new time = np.arange(0, nframes) * (1.0 / framerate) 


























I 
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pl.subplot (223) 

pl.plot(new time, new wave data[0]) 
pl.subplot (224) 

pl.plot(new time, new wave data[1], с="9") 
pl.xlabel ("time (seconds)") 

pl.show() 


如 图 3-24 所 示 的 波形 图 中 ， 上 面 为 源 声音 ， 下 面 为 降低 音量 后 的 声音 波形 。 可 明显 看 出 ,音量 缩小 后 ， 其 波形 幅度 为 -3000~3000， 而 源 声音 波形 范围 大 很 多 ， 为 -15000~15000。 


O+ 








图 3-24 者 小 波形 


`w 
ma 
x 
kajo 
A 


3.1.9 ”图像 信息 隐藏 





1. 图 像 隐 藏 原理 


信息 隐藏 是 不 让 除 预 期 接收 者 之 外 的 任何 人 知晓 信息 的 传递 事件 或 者 信息 的 内 容 ， 载 体 文件 相对 隐秘 文件 的 大 小 越 大 ， 隐 藏 后 者 就 越 加 容易 。 因 此 ， 数 字 图 像 在 互联 网 和 其 他 传媒 上 被 广泛 用 于 隐藏 消 


本 节 讲 述 的 图 像 隐 藏 原理 是 : 首先 从 源 图 中 提取 文字 图 像 信 息 ， 并 记录 这 个 文字 图 像 信息 像素 点 在 图 像 矩 阵 中 的 位 置 ; 然后 ， 对 载体 文件 进行 预 处 理 ， 将 蓝 色 像素 值 全 部 设 为 偶数 ; 最 后 ， 将 记录 的 文 
字 信 息 像素 点 在 载体 文件 对 应 位 置 的 蓝 色 像 素 值 设 为 奇数 。 解 密 信 息 是 隐藏 信息 的 逆 过 程 ， 其 过 程 比较 简单 ， 即 提取 载体 文件 中 蓝 色 像素 值 为 奇数 的 像素 点 ， 将 空白 图 像 中 这 些 像 素 点 对 应 的 位 置 赋予 统一 
的 着 色 。 


2. 图 像 隐藏 实例 


下 面 用 实例 来 讲解 图 像 信息 隐藏 技术 。 我 们 的 目标 是 : 将 如 图 3-25 所 示 的 文字 隐藏 在 如 图 3-26 所 示 的 载体 图 片 里 。 要 求 隐藏 后 ， 无 法 察觉 图 中 隐藏 了 信息 。 


图 3-25 ”含有 待 隐藏 文字 的 图 像 


图 3-26 ”载体 图 像 


本 实例 隐藏 信息 的 主要 过 程 如 下 : 


1) 读 取 源 图 像 (将 写 上 需 隐 藏 文字 的 信息 ) 和 载体 图 像 ， 构 造 图 像 矩阵 。 





imgl cv2.imread(fnl) 
img2 cv2.imread(fn2) 
w-imgl.shape[l1] 
h-imgl.shape[0] 








2) 在 源 图 像 中 加 上 水 印 文字 作为 待 隐藏 文字 。 


# 加 上 需要 隐藏 的 消息 



























































Cv2.putText ETT "hello, world!", (20, 300), cv2.FONT HERSHEY PLAIN, 3.0, 
redcolor, thickness = 2) 

cv2.putText(imgl, "code by myhaspl:myhaspl8qq.com", (20, 60), cv2.FONT 
HERSHEY PLAIN, 2.0, redcolor, thickness - 2) Е 
cv2.putText(imgl, "Installing Python is generally easy. ", (1, 90), cv2.FONT 
HERSHEY PLAIN, 2, redcolor, thickness - 1) и 


3) 处 理 隐 藏 载体 图 ， 将 所 有 蓝 色 值 变 成 偶数 ， 以 便 加 入 隐藏 信息 。 





# 处 理 隐 藏 载体 图 
# 将 所 有 蓝 色 值 变 成 偶数 
for j in xrange (0, h): 
for i in xrange (0, w): 
Е (img2[j, i, 01%2)==1: 
img2[j, i, 0]-img2[j, i, 01-1 











E 





4) 读 取 源 图 像 ， 将 源 图 像 的 文字 像素 点 在 载体 文件 的 对 应 位 置 的 蓝 色 像素 值 设 为 奇数 ， 将 需要 隐藏 的 信息 写 入 目标 载体 图 。 





for j in ， А h): 

for i in xrange(0, w): 

f (imgl[j, i, 0], imgl1[j, i, 1], imgl[j, i, 2])--redcolor: 
img2[j, i, 0]=img2[j, i, 0]+1 











219 








5) 保存 修改 后 的 目标 载体 图 。 


cv2.imshow('img2-2', img2) 
cv2.imwrite(fn3, img2) 











下 面 的 代码 演示 了 隐藏 信息 的 过 程 。 





f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#3-16.ру 

import cv2 

import numpy as np 

# 含 有 文字 的 图 像 
fnl-2"testl.jpg" 

# 载 体 文件 
fn2-2"test2. . 

# 包 含 隐 藏 信息 的 载体 文件 
fn3-2"secret.png" 
redcolor-(0, 0, 255) 


























if name == ' main ': 
print u' 正 在 处 理 中 '， 
# 图 像 大 小 


imgl = cv2.imread (fnl) 
img2 = cv2.imread(fn2) 
w-imgl.shape[l1] 
h-imgl.shape[0] 

# 加 上 需要 隐藏 的 消息 







































































cv2.putText(imgl, "hello, world!", (20, 300), cv2.FONT HERSHEY PLAIN, 3.0, 
redcolor, thickness - 2) 

cv2.putText(imgl, "code by myhaspl:myhaspl8qq.com", (20, 60), cv2.FONT 
HERSHEY PLAIN, 2.0, redcolor, thickness - 2) = 
cv2.putText(imgl, "Installing Python is generally easy. ", (1, 90), cv2.FONT 
HERSHEY PLAIN, 2, redcolor, thickness - 1) Е 
су2. namedWindow ( ' imgl') 

cv2.imshow('imgl',  imgl) 

cv2.namedWindow ('img2-1') 

cv2.imshow('img2-1',  img2) 

# 处 理 隐 藏 载体 图 

# 将 所 有 蓝 色 值 变 成 偶数 





for j in xrange (0, h): 

for i in xrange(0, w): 

f (img2[j, i, 0]%2)==1: 
img2[j, i, 0]-img2[j, i, 01-1 
print E 
mirror w-w/2 

# 读 取 源 图 ， 并 将 信息 写 入 目标 图 ， 将 有 信息 的 像素 点 的 蓝 色 值 设 为 奇数 


for j in xrange(0, h): 








H- 

















for i in xrange (0, w): 
if (imgl[j, i, 0], imgl[j, i, 1], imgl[j, i, 2])==redcolor: 
img2[j, i, 0]=img2[j, i, 0]+1 


Dpxcnt. "t. 
# 保 存 修改 后 的 目标 图 ， 并 显示 
cCv2.namedWindow ('img2-2') 
cv2.imshow('img2-2',  img2) 
cv2.imwrite(fn3, img2) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 











运行 上 段 代 码 将 信息 隐藏 后 ， 肉 眼 观 察 载体 图 像 ， 仍 无 法 察觉 与 之 前 相 比 有 任何 变化 。 
下 面 来 看 看 解密 信息 过 程 。 解 密 信息 与 隐藏 信息 相反 ， 是 隐藏 信息 的 逆 过 程 ， 主 要 步骤 如 下 : 


1) 读 取 载 体 文件 及 其 大 小 信息 。 








img = cv2.imread (fn) 
w=img.shape [1] 
h=img.shape [0] 





2) ЕБЎ#Е ЧЁ EBE, ДӘ? ТУСЕР, 





imginfo -np.zeros((h, w, 3), np.uint8) 





3) 绘制 解密 的 水 印 文字 。 如 果 监 色 值 为 奇数 ， 则 该 像素 点 为 文字 。 








for j in xrange (0, h): 
for i in xrange(0, w): 




















cv2.imshow('info', imginfo) 
cv2.imwrite(fn, imginfo) 











下 面 代码 演示 了 解密 信息 的 过 程 。 


f!/usr/bin/env python 
f-*- coding: utf-8 -*- 
#code :myhasplqq. com 
# 解 密 文件 














if name == ' main ': 

t 'loading http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
int u' 正 在 处 理 中 '， 

= cv2.imread(fn) 

w-img.shape[1] 

h-img.shape[0] 

imginfo -np.zeros((h, w, 3), np.uint8) 

for j in xrange(0, h): 

for i in xrange (0, w): 















































if (img[j, i, 0]%2)==1: 
# 如 果 蓝 色 值 为 奇数 ， 则 该 像素 点 为 文字 
imginfo[j, i, 1]=255 
print '.', 
cv2.imshow('info', imginfo) 








cv2.imwrite(fn,  imginfo) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 











运行 解密 代码 ， 从 载体 文件 中 提取 信息 ， 效 果 如 图 3-27 所 示 。 
3.1.10 ”声音 信息 隐藏 


1. 声 音信 息 隐藏 原理 


声音 文件 是 一 个 不 错 的 信息 隐藏 载体 ， 声 音 文 件数 据 量 大 ， 能 隐藏 信息 的 容量 也 大 ， 假 设 每 秒 采 集 44100 次 ， 如 果 所 有 采样 数据 全 部 利用 上 ， 每 秒 的 声音 可 以 存储 44100 字 节 的 数据 ， 不 过 这 样 达 不 到 信 
息 隐 藏 的 效果 ， 只 能 利用 其 中 一 部 分 采样 数据 来 存储 信息 ， 占 有 的 采样 数据 越 少 ， 信 息 隐 藏 效果 就 越 好 。 


比如 ， 如 图 3-28 所 示 的 波形 是 一 段 音乐 的 声音 波形 ， 假 设 某 个 采样 点 的 数据 实际 是 信息 中 一 个 字 节 大 小 的 数据 ， 那 么 将 这 些 字 节 解密 后 ， 能 还 原 成 一 段 信 息 。 这 种 载体 的 隐藏 信息 的 效果 比 图 像 好 ,一 
般 很 难 被 人 友 现 。 


这 里 采用 的 隐藏 策略 是 : 产生 一 段 正弦 波 的 噪声 ， 然 后 ， 在 这 段 噪声 中 隐藏 一 段 文 本 文件 的 内 容 。 下 面 以 实例 来 讲解 这 个 过 程 ， 我 们 的 目标 是 : 将 本 章 前 面 讲 述 的 Python 代码 文件 3-1.py 隐 藏 到 一 段 品 
声 中 ， 解 密 者 如 果 不 知道 信息 解密 的 规律 ， 就 无 法 从 噪声 文件 还 原 这 个 Python 代码 文件 。 


oo by MEALS myhaspl@qq4.com 


aling Ру 5n 15 generally 


nello,world! 











оо +2 ве = 





83-28 ”音乐 的 声音 波形 


2. 声 音信 息 隐藏 实例 
隐藏 信息 的 具体 过 程 如 下 : 


1) 读 取 需 要 隐藏 的 文本 文件 ， 提 取 其 中 的 文字 信息 。 





# 打开 文档 
fo = wave.open(r"pltest.wav",  "wb") 
file object = open('3-1.py') 
try: 
all the text = file object.read( ) 





£ 








inall 








h 
«d 


le object.close( ) 





2) 将 文字 转化 为 对 应 的 内 部 编码 (本 例 的 文字 为 英文 字母 和 符号 ， 因 此 转换 为 ASCII 码 ) 。 


wdata=map (ord, all the text) 
wdata-np.array (wdata) 





3) 设置 噪声 载体 文件 的 波形 参数 。 载 体 文件 是 程序 人 为 生成 ， 所 以 将 幅度 设置 为 适合 的 区 域 ， 为 使 载体 噪声 更 接近 于 自然 的 噪声 ， 将 振幅 范围 设置 为 -25600~25600。 


# 设置 波形 参数 

# 采 样 率 

framerate = 44100 
LEE 

nchannels-2 

# 每 位 宽度 

sampwidth-2 

# 长 度 

nframes =framerate*4 
# 振 幅 
base amplitude = 200 

max amplitude=128*base amplitude 








Д) 计算 每 个 字符 的 间隔 ， 需 要 隐藏 的 若干 个 字符 以 等 间隔 的 形式 分 散在 噪声 数据 中 ， 即 : 在 噪声 波形 数据 中 ， 每 隔 指定 的 间隔 存放 一 个 字符 。 


# 每 个 字符 的 间隔 
interval= (nframes-10) /lwdata 








5) 生成 


# 每 周期 样本 数 
wave data-np.zeros((nframes), dtype=np.short) 


6) 生成 噪声 数据 ， 并 将 隐藏 文字 的 字符 写 入 噪声 数据 中 ， 这 一 步 是 关键， 也 是 算法 的 核心 。 算 法 把 整个 采样 的 线性 区 域 分 为 两 类 ， 如 果 当 前 采样 时 间 处 于 第 4 步 
写 入 的 数据 为 经 过 加 密 的 字符 ， 在 间隔 之 前 的 时 间 区 域 则 为 随机 品 


X 


算法 判断 是 否 到 了 指 


区 (每 个 字符 


区 只 能 存放 一 个 字符 ) ， 





高 强度 的 加 密 算法 ) ， 加 密 方式 为 : 将 


区 域 
长 度 


算法 代码 如 下 : 





写 品 声 数 据 和 隐藏 文字 的 字符 
оз. random. rand (nframes) 











О. 


if curpos $ interval--0 and 


空 波形 数据 ， 以 便 写 入 噪声 数据 和 字符 信息 。 


字符 的 ASCII 码 乘 以 指定 的 整数 后 ， 


随机 噪声 区 


for curpos in xrange(0, nframes): 


count«lwdata: 


# 将 隐藏 文字 的 字符 通过 一 定 的 变化 写 入 嗓 声 数据 中 
possamp-wdata[count]*base amplitude-64*base amplitude 
count-t-1 

elif curpos£$60--0: 

# 生 成 随机 嗓 声 数据 


possamp-int (myrand[curpos]*max amplitude-max amplitude/2) 





else: 


possamp-0 
wave data [curpos]-possamp 


T) 写 波形 数据 。 


# 写 波形 数据 参数 












































print "save new wav 

str data-wave data.tostring() 
Fo.setnchannels (nchannels) 
Fo.setframerate (framerate) 
Fo.setsampwidth (sampwidth) 
fo.setnframes (nframes) 
Fo.writeframes (str data) 

















下 面 来 看 看 解码 信息 过 程 ， 解 码 信 | 





fileshttp://www.hzcourse.com/resource/readi 


1) 读 取 噪声 载体 文件 以 及 相关 格式 信息 。 


new wdata-[] 


print u' 正 在 从 声音 解码 文件 ' 


fi = wave. 
fi params-fi.getparams () 


open (r"pltest. wav" 











i nframes = fi params[3] 











"rp" ) 











fi str data-fi.readframes (fi n 
fi wave data= np.fromstring(fi 











Frames) 























. Str data, dtype-np.short) 


2) 找到 字符 区 ， 将 其 中 的 字符 解密 并 还 原 成 字符 串 。 











О. 





for curpos in xrange(0, nframes): 
if curpos $ interval--0 and count«lwdata: 


减 去 64 与 该 整数 的 乘积 。 生 成 的 信息 隐藏 格式 如 表 3-2 所 示 。 


表 3-2 信息 隐藏 格式 


MAFIE KEHLER | 








息 是 隐藏 信息 的 逆 算 法 ， 主 要 步骤 如 下 : 


possamp-(fi wave data[curpos]+64*base amplitude) /base amplitude 
new wdata.append (Possamp) 
count-t-1 























3) 整理 还 原 字 符 串 ， 将 它们 写 入 文件 。 

my the text-"".join(map(chr, new wdata)) 
fmy the text-"".join(map(chr, new wdata)) 
file ' object = open('mytext.txt',  'w') 
file object.write(my the text) 

file object.close( ) 














Book?path-/openresources/teach ebook/uncompressed/15753/0 


定 的 间隔 处 ， 间 隔 处 是 字符 区 ， 否 则 是 噪声 区 。 如 果 是 噪声 区 ， 则 随机 生成 噪声 ;如 果 是 字符 区 ， 则 将 字符 进行 加 密 ， 写 入 字符 区 。 


加 密 字 符 区 | ...... 














下 面 程序 读 取 名 为 3-1.py 的 Python 源 程序 文件 ， 将 该 文本 隐藏 在 声音 文件 中 ， 然 后 打开 载体 声音 文件 ， 将 文本 还 原 为 Python 程序 文件 。 


f!/usr/bin/env python 
# -*- coding: utf-8 -*- 
#code :myhaspl(qq. com 











# 将 文件 隐藏 在 声音 之 中 
#3-18.py 

import wave 

import pylab as pl 

import numpy as np 

# 编 码 

print u' 正 在 将 文件 编码 进 声音 ' 
print "generate wav dal 

# 打 开 文 档 








fo = wave.open (r"pltest.wav", 
file object = open('3-1.py') 



































= 








BPS/Text/..http://www.hzcourse.com/resource/read 


计算 的 间隔 处 ， 则 表示 此 处 为 加 密 字符 


此 处 使 用 了 简单 的 加 密 算法 (实际 应 用 可 使 用 





EBPS/Text/..http://www.hzcourse.com/resource/readBook?pat 





Воок?раїг 











cahttp: //www.hzcourse.com/resource/read 


"wb " ) 














try: 
all the text fi 
Finally: 7 
file object.close( ) 
wdata-map (ord, all the text) 
wdata-np.array (wdata) 
lwdata-len (wdata) 
HAE. 波形 参数 
# 采 样 率 
framerate = 44100 
# 声 道 数 
nchannels-2 
# 每 位 宽度 
sampwidth-2 
KRÈ 


Пі 








frames = 


Framerate*4 





le object.read( ) 


Book?path-/openresources/teach ebook/uncompressed/15753/O0E 


TET 
base amplitude - 200 
max amplitude-128*base amplitude 
# 每 不 字符 的 间隔 
interval- (nframes-10) /lwdata 
# 每 周期 样本 数 
wave data-np.zeros((nframes), dtype=np.short) 
count-0 
I5 n 5 AGES GC S AS 
myrand-np.random.rand (nframes) 
for curpos in xrange(0, nframes): 
if curpos $ interval--0 and count«lwdata: 
possamp-wdata|[count]*base amplitude-64*base amplitude 
count-t-1 
f curpos$60--0: 
possamp-int (myrand[curpos]*max amplitude-max amplitude/2) 

else: 

possamp-0 

wave data [curpos]-possamp 
# 写 波形 数据 参数 
print "save new wav fileshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?pat 
str data-wave data.tostring() 
fo.setnchannels (nchannels) 
o.setframerate (framerate) 
fo.setsampwidth (sampwidth) 
fo.setnframes (nframes) 
o.writeframes (str data) 


























ыз 


E 








I 










































































fo.close() 
# 绘 制 波形 
wave data.shape = -1, 2 
wave data = wave data.T 
time = np.arange(0, nframes/2) 
pl.subplot (211) 
pl.plot (time, wave data[0], c="r") 
pl.subplot (212) 
pl.plot(time, wave data[1], c="g") 
pl.xlabel ("time (seconds)") 
# 解 码 
new wdata-[] 
print u' 正 在 从 声音 解码 文件 ' 
fi = wave.open(r"pltest.wav", "rb") 
i params=fi .getparams () 
i nframes = fi params[3] 
fi str data=fi.readframes (fi nframes) 
fi wave data= np.fromstring(fi str data, dtype=np.short) 
count-0 
for curpos in xrange(0, nframes): 
if curpos $ interval--0 and count«lwdata: 

possamp-(fi wave data[curpos]-*64*base amplitude) /base amplitude 

new wdata.append (possamp) 





























































































































count4-1 
my the text-"".join(map(chr, new wdata)) 
file object = open('mytext.txt',  'w') 














ile object.write (my the text) 
ile object.close( ) 
pl.show() 














运行 这 段 代码 ， 程 序 输出 了 编码 和 解码 过 程 。 


正在 将 文件 编码 进 声 音 
generate wav datahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openr 
save new wav fileshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/oper 



























































上 面 程序 演示 了 隐藏 信息 与 解码 信息 的 过 程 。 程 序 运行 后 ， 先 将 Python 源 代码 文件 3-1.py 隐 藏 在 一 段 噪声 中 。 然 后 ， 从 噪声 中 解码 信息 ， 将 文本 内 容 输出 到 mytext.txt 中 ， 用 记事 本 打开 该 文件 ， 如 图 
3-29 所 示 。 可 以 看 到 解码 后 的 程序 和 源 程序 一 样 ， 包 括 空格 、 符 号 及 字母 等 。 


文件 (F) SSE) 182000) #rB(V) *#Bh(H) 


HI /usr/bin/env python 
#4-1. ру 
import су2 


fn-"testl. pg 


if папе ==” main `: 
print http: / /blog. csdn. net /myhaspl' 
print 'myhasplüqq. com 
print 
print "loading *«s ...' W fn 
img = cv2. imread(fn) 
cv2. imshow( preview , img) 
cv2. waltkey() 
cv2. destroyhllWindows() 





图 3-29 ”解码 后 文件 


如 图 3-30 所 示 是 程序 运行 后 生成 的 声音 波形 图 像 ， 很 难看 出 来 哪些 采样 点 隐藏 了 文本 信息 。 下 载 本 书 源码 包 后 ， 可 以 播放 这 段 声音 (运行 3-18.py 后 ， 会 产生 声音 文件 pltest.wav) ， 只 能 听 出 声音 是 一 
段 很 平常 的 噪声 。 


15 000 
10 000 I| 











0 10000 20000 30000 40000 50000 60000 70000 80000 90000 
图 3-30 ”隐藏 了 文本 信息 的 波形 
3 信息 隐藏 与 解码 总 结 
综 上 所 述 ， 隐 藏 信息 的 算法 过 程 为 


1) 读 取 程序 文本 文件 ， 将 字符 转换 为 ASCII 码 。 


2) 确定 声音 文件 的 相关 参数 ， 生 成 2 秒 声音 ， 其 中 采样 数据 用 随机 数 代替 ， 生 成 随机 数 的 取 值 学 围 为 -15000~15000， 在 某 些 采 样 点 上 用 来 自 隐藏 信息 的 字符 字 节 代替， 代替 的 方式 是 将 字 节 对 应 的 
As<clI 码 乘 上 某 个 基数 加 一 个 调整 参数 ， 代 蔡 的 过 程 是 线性 的 。 


3) 将 生成 的 声音 数据 写 入 载体 文件 中 。 

解码 信息 的 算法 过 程 为 : 

1) 读 取 载 体 声 音 文件 及 其 相关 参数 。 

2) 按照 隐藏 信息 时 的 规律 ， 在 正确 的 位 置 读 取 字符 ， 然 后 将 读 取 的 字符 合成 信息 。 


3) 将 信息 写 入 恢复 文件 中 。 


32 Ri 语言 基础 


R 是 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 ， 是 统计 计算 和 统计 制图 的 优秀 工具 ,属于 GNU 系 统 的 一 个 自由 、 免 费 、 源 代码 开放 的 软件 。 其 GUI 界 面 主要 包括 菜单 、 命 令 控 制 台 ， 在 Windows 平 台 下 的 
界面 如 图 3-31 所 示 。 


R version 3.0.0 (2013-04-03) -- "Masked Marvel" 
Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: i386-w64-mingw32/1386 (32-bit) 


R 是 自由 软件 ， 不 带 任 何 担保 
在 某 些 条 件 下 你 可 以 将 其 自 由 散布 。 
用 '1icense () :或 '1icence (15 来 看 散布 的 详细 条 件 . 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 贡献 . 
用 'contributors() ' 来 看 合作 者 的 详细 情况 
用 'cicacion () ' 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 R 或 R 程 序 包 . 


用 'demo () ' 来 看 一 些 示 范 程 序 ， 用 'help() ' 来 阅读 在 线 帮助 文件 ， 或 
'help.start() :通过 HTML 浏 览 器 来 看 帮助 文件 。 


'q() RER. 


> | 





图 3-31 КСЛ Хт 


3.21 基本 操作 


1. 提 示 符 


R 以 “>” 为 shell 提 示 符 ，Windows、Linux、MAC 均 一 致 。 


2. 获 得 帮助 的 方式 


在 R 中 使 用 help 函 数 获取 某 个 命令 或 函数 的 帮助 。 下面 是 获取 求 平均 值 函 数 的 帮助 函数 : 


> help(mean)starting httpd help server http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... done» 








输入 上 述 命令 后 ， 显 示 如 下 HTML 形 式 的 帮助 文档 : 


Arithmetic Mean 


Description 


Generic function for the (trimmed) arithmetic mean. 


££ Default 53 method: 
mean(x, trim = 0, na.rm = FALSE, ...) 





如 果 想 进一步 获得 这 个 函数 的 调用 示例 ， 可 以 通过 example 命 令 。 





> example (mean)mean> x «- c(0:10, 50)mean> xm <- mean(x)mean» c(xm, mean(x, trim = 0.10))[1] 8.75 5.50 


3. 文 件 载 入 并 执行 代码 


使 用 Source 函数 载 入 并 执行 代码 ， 把 以 下 代码 放 在 一 个 名 为 test.r 的 文件 ， 用 文本 编辑 工具 录入 。 





x«-c(22, 23, 44, 66); 
у<-пеап (x) ; y 


然后 加 载 执行 ， 查 看 输出 结果 。 








ource ("f:/pro/r/test.r") 





S 
y 
|]. 398.75 
x 
l] 





22 23 44 66 








ink("f:/pro/r/test.lis") 








打开 test.lis， 可 看 到 以 下 内 容 : 





[1] 22 23 44 66 
[1] 38.75 





如 果 采 用 不 带 参 数 的 sink， 将 恢复 结果 。 示 例如 下 : 


> sink() 
> x 
[1] 22 23 44 66 





4. 代 码 续 行 


在 行 尾 使 用 “+” 可 进行 续 行 。 





х<-с(11, 22, 33+ 

+ 22+ 

+ 3333) 

> x[1] 11 22 3388 





另外 ， 需 要 提 一 下 ，R 语 言 中 的 注释 可 以 被 放 在 任何 地 方 ， 只 要 是 以 井 号 (#) 开始 ， 到 行 末 结束 就 可 以 。 
5. 物 件 (对 象 集 ) 
在 R 中 创建 的 单元 为 物件 (对象 集 ) ， 这 些 物 件 可 以 是 变量 、 数 字数 组 、 字 符 串 、 函 数 ， 以 及 从 这 些 物 件 中 产生 的 更 多 结构 。 


objects0 可 用 来 显示 存储 在 R 中 的 对 象 集 名 字 。 





> objects() 
[1] чу" "xm" 





以 上 代码 显示 R 目 前 运行 环境 中 有 x 和 xm 两 个 变量 ， 可 以 使 用 rm 移 除 某 个 对 象 。 


> rm(xm) 
> objects () 
[1] "Ун 





退出 R 程 序 时 ， 可 以 以 .RData 的 方式 保存 这 些 对 象 集 ， 如 图 3-32 所 示 。 


RFE C: [Ese > G 4 ea 
名 称 Eu ^ 


di Administrator 的 设备 chhyyz# 2013-04-16 124] 
Js Arduino 2013-03-15 15: 
‚Ь; Dynamic Info Screen 2013-01-28 15z 


Js MATLAB 2013-03-05 7:5; 
[sj My Music 2012-12-24 104 
‹ 
MEE): ‚Кафа 
Т1 (Т): |R images (*,RData) 





图 3-32 保存 对 象 集 对 话 框 


当下 次 再 启动 R 时 ， 加 载 .RData 文 件 后 ， 这 个 对 象 集会 被 还 原 。 





R version 3.0.0 (2013-04-03) -- "Masked Marvel" 

Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: i1386-w64-mingw32/i1386 (32-bit) 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 



































原来 保存 的 工作 空间 已 还 原 。 


> х 
[1] 





1] 11 22 3388 
3.2.2 向量 
1 .数据 型 向 量 及 其 运算 


最 简单 的 数据 结构 是 数字 型 向 量 ， 它 是 一 个 有 序 的 数字 集合 (这 里 的 序 不 是 指 按 数字 大 小 排序 ， 是 指数 字 之 前 的 先后 顺序 都 确定 ) ， 关 于 这 个 序 ， 数 学 上 有 一 个 很 好 的 解释 ， 叫 作 偏 序 关 系 。 
偏 序 关系 又 称 半 序 关系 。 设 A 是 一 个 非 空 集 ，P 是 A 上 的 一 个 关系 ，P 适 合 下 列 条 件 : 

1) 对 任意 的 aEA，(a，a)EP。 

2) #(a, b)ePB(b, a)eP, 则 a=b。 

3) #(a, b)eP, (b, с)єР, 则 (a，cQEP， 则 称 P 是 A 上 的 一 个 偏 序 关 系 。 带 偏 序 关 系 的 集合 A 称 为 偏 序 集 或 半 序 集 。 

比如 说 (1, 2) 和 (2, 1) ， 它 们 两 个 就 不 是 同 个 向 量 ， 因 为 这 两 个 集合 的 序 不 一 样 。 

向 量 的 使 用 方法 很 简单 ， 可 使 用 "c" 后 跟 括号 将 向 量 包围 起 来 ， 即 c0 消 数 。 如 : 


> y«-c(12, 33, 12, 22) 
> y 
[1] 12 33 12 22 








"<-" 可 以 相当 于 “=” ， 就 是 将 这 个 向 量 组 作为 y 这 个 对 象 的 值 ， 也 可 以 使 用 assign() 国 数 。 
» assign("x", c(11, 22, 15)) 

> x 

[1] 11 22 15 


>” 的 作用 与 "<-" 类 似 。 





> c(12, 33, 12, 22)->z 
>Z 


LL 12 393 12. 22 





对 向 量 操作 ， 一 般 是 对 向 量 的 每 个 元 素 进行 操作 ， 比 如 : 





2, 
L] 12 33 12 22 
z/2 
|] 


IW Eg M 





6.0 16.5 6.0 11.0 





向 量 也 可 以 成 为 c0 中 的 参数 ， 向 量 中 的 元 素 ， 将 合并 成 为 c0 函 数 中 的 元 素 : 


c(33, 12, 66) ->X1 
yl=c (x1, 111, x1) 
уі 
] 





> 
> 
> 

[ 


1] 33 12 66 111 33 12 66 





再 来 看 看 数字 型 向 量 运算 。 向 量 之 间 的 运算 是 每 个 元 素 分 别 进行 的 ， 比 如 : 





> x 
1] 11 22 3388 
2*x-»y 


М 3 


|] 22 44 6776 
xt3*y-»z 
Z 


IM Vr 











77 154 23716 





元 素 个 数 不 一 致 的 向 量 ， 元 素 个 数 较 少 的 向 量 将 循环 扩充 和 元 素 个 数 最 多 的 向 量 一 致 ， 这 意味 着 元 素数 量 最 多 的 向 量 的 元 素 个 数 必 须 是 元 素数 量 小 的 向 量 的 元 素 个 数 的 整数 倍 。 





> 
[1] 77 154 23716 

> рр<-с (12, 21, 32, 60, 132, 56) 

> z/3-bb 

[1] 37.66667 72.33333 7937.33333 85.66667 183.33333 7961.33333 











对 向 量 元 素 的 操作 ， 可 以 使 用 普通 的 +、-、*、/、^ 等 操作 符 ， 也 可 以 使 用 更 多 的 函数 ， 比 如 : log、sin、tan、max、mean、sum 等 ， 这 些 函 数 有 些 是 对 每 个 元 素 分 别 计算 ， 有 些 是 对 所 有 元 素 一 起 
计算 。 


> x 

[1] 11 22 3388 

> cos (x) #cos = f ж 

[1] 0.004425698 -0.999960826 0.206187272 
> Sin(x)#sin 三 角 有 函数 

[1] -0.999990207 -0.008851309 0.978512549 
> Sum(X)# 求 和 

[1] 3421 

> mean (х) ## Ф548 

[1] 1140.333 














可 以 使 用 sort、length、sqrt 对 向 量 进行 排序 ， 求 长 度 ， 求 平方 根 。 





> c(4, 8, 9) ->x 

> загі (X) 坦 平方 根 

[1] 2.000000 2.828427 3.000000 
> length (х) FE 
[1] 3 
> 
> 
[1 


sort (x) ->y# 排 序 





Y 
|] 4 8 9 





2. 复 数 向 量 与 规则 向 量 


复数 向 量 的 元 素 都 是 复数 。 复 数 的 表示 方法 是 : 实 部 + 虚 部 ij。 下 面 的 代码 演示 了 复数 向 量 的 使 用 方法 。 


с(2+11, 3-91, 4) ->р 


— k 一 


4 8 9 


> 
> 
[1 
> bty->w# 复 数 运算 
> w 

T 





] 641i 11-91 1340i 





我 们 可 以 使 用 1:m-1 和 1:(m-1) 产 生 规则 的 序列 。 



























































>c (1: (22)) 

[L] 1 2 3 4 5 6 7 8 9101112 13 14 15 16 17 18 19 20 21.22 
> 6(1:22) 

[1] 12 3 4 5 6 7 8 910 11 12 13 14 15 16 17 18 19 20 21 22 





[1] 3 6. 9 12 15 18 21 24 27 30 























[1] 3 6 9 12 15 18 21 24 27 30 


sed 函 数 是 生成 序列 的 最 好 工具 。 可 以 使 用 它 产生 符合 某 种 规则 的 序列 ，seq 函 数 有 5 个 参数 ， 前 4 个 参数 分 别 是 起 始 值 (参数 名 称 : from) 、 终 止 值 (参数 名 称 : to) 、 步 长 (参数 名 称 : by) . KE 
即 元 素 个 数 (参数 名 称 : length.out) 。 











ке Б бле) 
—  —з @ 














可 以 直接 指定 参数 名 称 ， 传 入 参数 。 





(from-1, to-15, by-2) 
її» 5. 7 9 11 13 15 








seq 
] 
































> 

> seq(from-1, to-15, by-3) 

[1] 1 4 7 10 13 

> seq(from-1, to-15, length.out-3) 
[1] 8 15 














第 五 个 参数 是 along.with， 使 用 along.with 参 数 中 序列 的 长 度 作 为 要 产生 序列 的 长 度 。 











> seq(from-2, along.with-c(1:5)) 

[1] 234 56 

> seq(from-2, by-2, along.with-c(1, 2, 5, 8)) 
[1] 24 6 8 

> seq(from-2, by-2, along.with-c(1, 2, 3, 8)) 
[1] 24 6 8 





加 注意 aongwith 参 数 中 的 序列 仅 取 其 长 度 ， 和 序列 的 内 容 无 关 。 


rep 函 数 对 序列 中 的 元 素 进 行 重复 后 拼接 ， 拼 接 的 方式 是 : 使 用 times 参 数 将 所 有 元 素 作为 整体 拼接 ， 使 用 each 参 数 将 元 素 分 别 进行 拼接 。 





> rep (x, 2) 

[1] 12 32 98 12 32 98 
» rep(x, 3) 
[1] 12 32 98 12 32 98 12 32 98 
> rep(x, times-2) 

[1] 12 32 98 12 32 98 

» » rep(x, each-2) 

[1] 12 12 32 32 98 98 
































3. 逻 辑 型 向 量 


了 解 了 数字 型 向 量 ， 再 来 看 看 逻辑 型 向 量 。 该 向 量 的 元 素 由 逻辑 型 值 组 成 ， 逻 辑 型 的 值 有 TRUE (可 缩写 成 T) 、FALSE (可 缩写 成 F) . NA ( 即 无 效 ) 等 ， 可 使 用 >、> 
HFA, odk FA) ZEHA "U 。 


C(12, 33, 51) ->x 
> x 





[1] 12 33 51 
> x»20-»y 








Y 
[1] FALSE TRUE TRUE 
> X>=12->y#X>12 作 为 产生 还 辑 向 量 的 依据 




















y 
[1] TRUE TRUE TRUE 
> x»-12&x«30-»2y 











[ RUE FALSE FALSE 
> x»-12|x«30-»y 
> 


























[1] TRUE TRUE TRUE 
>> l(x»-12&x«30)-»y 























y 
1] FALSE TRUE TRUE 














、==、!= 等 逻辑 操作 符 ，and 





无 效 值 或 缺失 值 NA、NaN 主 要 用 于 应 付 某 操作 没完 成 ， 结 果 未 知 的 情况 。 示 例如 下 : 


(1:4, NA, 2:3)->х 








FALSE FALSE FALSE FALSE TRUE FALSE FALSE 


























> c 
x 
[1] 12 3 4NA 2 3 
> 1 
[1] 


下 面 是 数字 计算 对 NAN 的 处 理 : 





0/0 

1] NaN 
0/0-»y 
is.na(y) 
] TRUE 
У 

L] NaN 








МММ V 





4. 字 符 串 向 量 
字符 串 用 单 引 号 或 双 引 号 包围 ， 示 例如 下 : 


> C ("qq" š "bp" ) ->7 
> 2 
[1] "аа" "bb" 





可 在 字符 串 中 使 用 转 义 符 \: 





\һ 新 行 

NE E 

\t tab 

Mo GERE 

\а 鸣叫 
\ 


№" ' 
MM " 





在 字符 串 向 量 的 运算 中 ，paste() 函 数 接受 任意 数量 的 参数 ， 可 将 它们 依次 连接 到 字符 串 向 量 的 元 素 中 ，sep 指 定 连接 时 相隔 的 字符 ， 默 认为 单个 空格 。 












































> paste (1:12) 
[1 1 маит WoW "эч "An "EN "6" ү "8" "о" "(ун "cpu "pM 
> paste("A", 1:6, sep = "") 
[1 ] "AT "Ü "A2 тт "A3" "AA "T "AD" "AG" 
> paste("A", 1:6) 
[1] "A qu "X PAL "A SM "A 4" "A 5" "X 6" 
> paste("A", 1:6, sep = "") 
[1] "А1 "T "A2 "Ü "A3" "AA "T "д5" "д6" 
> paste(c("A", "B"), 1:10, sep="") 
[1 1 WAS "T "B2 " "AS" "BA "T "ADM "pe" "A7 " "B8 "T "д9" "B10" 
> paste (" 今 天 是 "， date()) 
[1] "今天 是 Sun Apr 21 14:18:38 2013" 
> 





5.5158 
在 逻辑 值 型 索引 中 ， 索 引 向 量 的 元 素 为 逻辑 值 型 ， 逻 辑 值 为 TRUE 的 向 量 将 被 放 在 输出 结果 中 。 示 例如 下 : 


> x 
1] 11 322 3388 
x222-»jg 

















Jg 
[1] FALSE FALSE TRUE 
> x[jg]-^y 
У 
[1] 3388 
> x[x«100]-»y 











У 
HET 522 





在 正 整数 型 索引 中 ， 索 引 向 量 是正 整 数 类 型 ， 用 于 指示 要 哪些 位 置 的 元 素 要 输出 到 结果 中 。 示 例如 下 : 





[2 2; 1) ]# 以 向 量 作为 索引 


























[1] 22 3388 22 11 
> Xx 

[1] 22 3388 

> x[ 

» x[1:2] 

[1] 11 22 

> x[2:3] 

[ 22 3388 











对 于 负数 索引 ， 会 将 除开 索引 以 外 的 所 有 元 素 输出 到 结果 中 。 示 例如 下 : 





> c(12, 22, 88) 5X 


12 22 88 























在 字符 串 索引 中 ， 是 以 字符 串 来 标注 元 素 的 位 置 的 。 示 例如 下 : 


> c(23, 26, 27)->age 
> с" =", "Жуу", " £ я") ->папеѕ (аде) 
> аде [с ("sk Z") ]# 以 字符 串 作 为 索引 张 三 
23 
> age[c ("ik Z", " £ Z") ]—>mystudent 
> mystuqent 张 三 王 五 
23 27 


融 索 引 方 式 的 向 量 对 象 可 以 直接 作为 被 赋值 的 对 象 ， 所 有 在 索引 内 的 向 量 元 素 都 会 被 赋值 。 示 例如 下 : 


> аде [c(" 张 三 "， "®л")] = IA 
26 28 
> аде [c(" 张 三 "， " 王 五 ") ]<-аде[с("=.", "$ Z")]+1 
> age[c(" 张 三 "，" 王 五 ")] 张 三 ж 
27 29 
> аде [с ("sk =", "Е Z") ]<-32 
> age [c(" 张 三 "， "=®")] = IZ 
32 32 








再 举 个 例子 : 给 所 有 小 于 100 的 元 素 均 加 上 20， 代 码 如 下 : 


11 22 3388 
ength (x) 
3 








[x«100] «7x [x«100] 4-20 


„уусу V 
— X X —p—Xx 





31 42 3388 


3.23 ”对 象 集 属性 


1. 固 有 属性 


对 象 集 的 固有 属性 有 mode 和 length 两 种 ， 相 关 示 例如 下 : 





> x 

[1] 11 22 3388 
> mode (x) 

[1] "numeric" 





其 中 mode 可 理解 为 对 象 集 的 类 型 ， 主 要 有 numeric1、complex、logical、character 和 raw 等 类 型 。mode 的 用 法 如 下 : 





mode (a) 


> 
[1 
> c(1.0-5i, 20+511)->а 
> 
[1] "complex" 





mode 属 性 转化 可 完成 数据 类 型 的 转化 。 比 如 ， 使 用 as.character 转 化 为 字符 型 等 。 示 例如 下 : 





> 
= 
[1 5.6 7 8 91011 12 
> as.character (h) # 转 化 为 字符 
[1] "EN "on "ww "8" "on "| "pps "ow 
> c(1.0-5i, 20451i)-»a 
» mode (a) 
[1] "complex" 








> as.character(a)-»c a 

> са 

[1] "1-5i" "20451i" 
2. 设 置 对 象 属性 


可 使 用 attr 方 法 进行 属性 的 自 定义 。 具 体 方 法 为 : 使 用 attr(object，name) 格 式 设置 对 象 属性 。 示 例如 下 : 


>h 

[1] 5 6 7 8 9 10 11 12 
> attr(h, "name")<- "test" 
attr (h, "dim")«-c(2, 4) 

>h 








[1% 

[2, 

attr(, "name") 
[ ] "test" 


3.24 ”因子 和 有 序 因子 


因子 用 来 存储 类 别 变量 和 有 序 变 量 ， 可 用 来 分 组 或 分 类 ， 因 子 表示 分 类 变量 ， 有 序 因 子 表示 有 序 变量 。 


在 R 语 言 中 使 用 factor() 国 数 生成 因子 对 象 ， 语 法 是 factor(data，levels，labels，http://www.hzcourse.comyresource/readBook? 


path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...)， 其 中 data 是 数据 ，levels 是 因子 水 平 向 量 ，labels 是 因子 的 标签 向 量 。 


> my num<-c (11, 22, 34, 71, 14, 68, 21) 
> factor (ту пом) ->nums# 生 成 my_ num4 6) = 





生成 因子 对 象 后 ， 输 入 对 象 名 称 ， 可 显示 简单 的 分 类 情况 。 


> nums 

[1] 11 22 34 71 14 68 21 
Levels: 11 14 21 22 34 68 71 
> 








Levels 函 数 用 于 生成 因子 向 量 中 的 水 平 (去 除 重复 元 素 后 的 元 素 集 ) 。 示 例如 下 : 


> my num<-c (11, 22, 34, 71, 14, 68, 21, 22, 11, 34) 

» factor (my num)-»nums 

» nums Е 
[1] 11 22 34 71 14 68 21 22 11 34 

Іеуе15: 11 14 21 22 34 68 71 

> levels (nums) 

[1] мали "14" "21 "T "22 "34" "68" LS A MOI 





























还 可 使 用 ordered 函 数 生 成 有 序 因子 。 示 例如 下 : 


> ordered (nums) 

[1] 11 22 34 71 14 68 21 22 11 34 
Levels: 11 < 14 < 21 < 22 < 34 < 68 < 71 
> age «- c(25, 12, 15, 12, 25) 
> ordered(age, levels = c(25, 12, 15)) 
[1] 25 12 15 12 25 
Levels: 25 « 12 « 15 























cut( 国 数 将 数据 转换 成 因子 或 有 序 因 子 ， 并 进行 分 组 。 下 面 对 一 组 学 生成 绩 进 行 分 组 。 


> score«-c( 88, 85, 75, 97, 92, 77, 74, 70, 63, 97) 

> cut(score, breaks = 3)4J4 55 2 73128 
[1] (85.7, 97] (74.3, 85.7] (74.3, 85.7] (85.7, 97] (85.7, 97] (74.3, 85.7] 
[7] (63, 74.3] (63, 74.3] (63, 74.3] (85.7, 97] 

Levels: (63, 74.3] (74.3, 85.7] (85.7, 97] 

> cut(score, breaks = 2)# 将 成 绩 分 为 2 组 

[1] (80, 97] (80, 97] (63, 80] (80, 97] (80, 97] (63, 80] (63, 80] (63, 80] (63, 80] 

[10] (80, 97] 

Levels: (63, 80] (80, 97] 








3.2.5 ”循环 语句 
1.for 循 环 


R 语 言 的 for 循 环 与 Python 类 似 ， 都 是 通过 在 对 象 中 进行 迭代 实现 循环 ， 但 R 语 言 中 不 能 在 该 循环 中 直接 设置 起 始 值 、 终 止 值 与 步 长 。 示 例如 下 : 


> z«-c() 
> x«-(1:10) 
> y«- (11:20) 











> for (i in 1:length(x))( 
+ z[i]=x[i] *2+y[i] 2 

+) 

> Z 

[1] 122 148 178 212 250 292 338 388 442 500 














2.while 循 环 


while 语 句 每 次 会 检查 循环 条 件 ， 如 果 条 件 不 再 满足 ， 则 终止 循环 。 示 例如 下 : 














[1] 1 4 3 4 5 6 7 8 9 10 


3.2.6 ”条 件 语句 


ifhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...elsehttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/15753/OEBPS/Text/... 是 R 语 言 的 条 件 语 句 。 该 语句 通过 检查 执行 条 件 来 确定 是 否 继续 往 下 执行 ， 如 果 条 件 满足 ， 则 执行 if 后 面 的 对 应 语句 ， 否 则 执 
行 else 后 面 的 对 应 语句 。 示 例如 下 : 








> z«-c() 

> x«- (1:10) 

> y«- (11:20) 

> for (i in 1:length(x))( 








if ((х[1]^3>у[11^2)) 
[1i]ex[1]^3 








J 

Z 

еі 
z[i]=y[i]^2 
} 

z 

1 





121 144 169 196 225 256 343 512 729 1000 





33 ”R 语 言 科学 计算 
3.3.1 分 类 (组 ) 统计 
R 语 言 分 类 统计 主要 包括 数据 分 类 整理 、 统 计 函 数 定义 、 数 据 分 类 统计 3 个 过 程 。 下 面 以 对 水 果 的 价格 进行 分 类 统计 为 例 说 明 。 


1. 准 备 分 组 数据 





> fruit class<-c("3 KU, т", ЖА", "Уж", "Жж", "dd", "fd", "жж", А", "EPAEU) 
» fruit prices«-c(3.5, 2.5, 1.5, 5.5, 4.2, 3.2, 2.8, 4.8, 2.9, 5.8) 











2. 平 均 价 格 统计 


通过 在 tapply 函 数 中 指定 mean 函 数 为 其 参数 ， 可 实现 分 组 求 平 均值 。 计 算 结果 分 2 行 ， 第 1 行为 组 名 ， 第 2 行为 tapply 函 数 最 后 一 个 函数 参数 的 运算 结果 。 示 例如 下 : 








> tapply(fruit prices, fruit class, mean) 
A 


X3 MF XX 
5.366667 2.600000 2.500000 3.850000 


3. 最 低 价格 统计 


通过 在 tapply 函 数 中 指定 min 函 数 为 其 参数 ， 可 实现 分 组 求 最 小 值 。 示 例如 下 : 





fruit prices, fruit class, min) €3 橘子 梨子 苹果 


u 
Za: uo 





> tapply 
20^ lt 





сл 一 


4 .标准 差 统计 


通过 在 tapply 函 数 中 指定 sd 函数 为 其 参数 ， 可 实现 分 组 求 标准 差 。 示 例如 下 : 





> tapply(fruit prices, fruit class, sd) 


A 





草莽 橘子 苹果 
0.5131601 0.7527727 NA 0.4949747 


5. 标 准 误 
标准 误 即 样本 均 数 的 标准 差 ， 是 描述 均 数 抽样 分 布 的 离散 程度 及 衡量 均 数 抽样 误差 大 小 的 尺度 ， 反 映 的 是 样本 均 数 之 间 的 变异 。 


但 是 ， 请 注意 ， 标 准 误 并 不 是 标准 差 ， 而 是 样本 均值 的 标准 差 ， 是 用 来 衡量 抽样 误差 的 ， 其 计算 公式 为 : 


其 中 ，% 为 样本 标准 差 。 标 准 误 越 小 ， 表 明 样 本 统计 量 与 总 体 参 数 的 值 越 接近 ， 样 本 对 总 体 越 有 代表 性 ， 用 样本 统计 量 推断 总 体 参 数 的 可 靠 程度 越 大 。 


可 通过 在 tapply 函 数 中 指定 自 定义 函数 stderr 为 其 参数 ， 来 实现 分 组 求 标准 误 。 示 例如 下 : 





> stderr <- function(x) sqrt (var (х) /lenoth(x))#K # 3 stderrx ж 
> tapply(fruit prices, fruit class, stderr) 

TT Á A3 XR 
0.2962731 0.3763863 NA 0.3500000 








3.3.2 ”数组 与 矩阵 基础 


R 提 供 了 简单 的 工具 以 处 理 数 组 和 矩阵 。 


1. 数 组 与 矩阵 的 维 数 


数组 与 矩阵 的 维 数 是 其 行 向 量 (或 列 向 量 ) 生成 的 向 量 空间 的 维 数 ， 可 用 维 数 向 量 表示 ， 格 式 为 ( 行 数 x 列 数 ) ， 元 素 都 非 负 。 通 常 使 用 dim 函 数 来 定义 数组 维度 。 示 例如 下 : 


> qim (my num)«-c(2, 5)HHH8 ж Ж?Н? Ж 
» my num 


"WB 11 34 14 
，] 22 71 68 
dim(my пот) <-c (10) 
my num 

| 





21. 
22 


14 68 21 22 11 


{| 
34 








2. 切 片 


切片 是 操作 多 维 数 据 (和 矩阵 、 数 组 等 ) 的 主要 手段 ， 它 以 索引 为 参数 获取 数组 或 矩阵 的 一 部 分 。 比 如 : 想 要 得 至 


对 数组 和 和 矩 阵 完 成 切片 操作 。 


索引 的 形式 主要 有 以 下 几 种 : 


1) [index1, index2, http:;//www.hzcourse.com/resource/readBook?path = /openresources/teach ebook/uncompressed/15753/OEBPS/Text/...，indexn]。index1、index2 等 分 别 标明 了 元 


素 在 相应 维 数 的 索引 ， 将 索引 组 合成 完整 的 位 置 ， 标 注 需 要 取出 的 元 素 ， 进 行 切片 ， 形 成 数组 块 。 比 如 : 数组 a 的 大 小 为 3x5，a[2， 和 省 表示 第 2 行 第 4 列 的 元 素 。 


2) [c(index1, index2, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...，indexn)]。index1、index2 等 n 个 整数 标 
注 了 元 素 的 位 置 ， 将 这 些 标注 的 元 素 取出 后 ， 组 成 数组 块 。 这 些 元 素 的 位 置 以 列 为 顺序 排列 ， 比 如 ， 数 组 a 的 大 小 为 3x2 (3 行 2 列 ) ， 切 片 操作 a[c(1，2，3，4，5，6)] 依 次 取出 以 下 元 素 : all, 11. 
а[2, 1], a[3, 1]. all, 2]. а[2, 2], a[3, 2]. 


切片 操作 示例 如 下 : 


[, 1] L, 2] L, 3] 





[1,] 42 15 982 
[2,1 32 67 321 














3.5 | 


数组 可 作为 索引 使 用 ， 且 数组 也 是 向 量 ， 因 此 作为 索引 的 数组 可 称 为 索引 向 量 。 下 面 的 代码 演示 了 向 量 c(1:3，5:4，3:5) 作 为 索引 的 情况 。 


1) 创建 数组 x 和 i，x 是 被 切片 的 数组 ， 是 索引 向 量 。 




















# 获 取 第 1 行 第 2 列 数据 (为 15) . $21 $35 


c(h[1, 2], Һ[2, 3])# 
1] 15 321 

h[2, ] 

32 67 321 

h 
[1] 12 32 15 

h [6] HHH£ 9| PUR 6/4 A448 
41 321 

h[4] 

1] 67 

向 量 


> array(10:20, dim=c (2, 5))-»x 
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hlc, 2, 3) ]### 逐 列 获取 第 1、2、3 个 数据 


> x 
Le. d] Laz] T 21.4. 21 l9] 
[1, ] 10 12 14 16 18 
[2, ] 11 1 15 17 19 
> array(c(1:3, 5:4, 3:5), dim=c(2, 3))->1 
> і 
[, 1] [, 21 L, 3] 
[ Л 1 3 4 
[2, ] 2 5 3 


2) 以 为 索引 向 量 提取 数组 块 ， 索 引 向 量 每 个 元 素 代表 切片 的 位 置 ， 将 这 些 位 置 指向 的 元 素 提 取出 来 ， 形 成 数组 块 (数组 切片 ) 。 示 例如 下 : 


> x[i] 


[1 


] 10 11 12 14 13 12 





3) 通过 索引 对 数组 某 个 元 素 赋值 。 示 例如 下 : 





























\ 
о со 








array 函 数 根据 维 数 参数 生成 多 维 数组 ， 它 的 参数 主要 有 两 个 ， 第 一 个 是 需要 形成 数组 元 素 的 数据 ， 第 二 个 是 dim 人 参数 提 示 维 度 。 下 面 的 代码 演示 了 array 函 数 创建 数组 的 方法 ， 并 通过 dim 函 数 获取 数组 


的 大 小 。 


> c(1:20)-»h 
> mya«-array (h, dim=c (4, 5)) 


» x[i]«-111 
>. х 
Г, [, 2] Is 3] [1,41 [ 
[1, ] 1 111 16 1 
[2, ] 15 17 
4.array 国 数 


























[, 5] 

17 

18 

19 

20 

[, 5] 1, 6] b 7] Db 8] D 9] 
9 11 I3 15 17 19 

10 12 14 16 18 20 

















> mya 

[1] D 21 D 3] 
[1, ] 1 5 9 
[2, ] 2 6 10 
[3, ] 3 7 11 
[45 ] 4 8 12 
» mydim«-c(2, 10) 
> mya«-array(h, dim=c (2, 10)) 
> mya 

[x 4] [oA du 31 
[1, ] 1 3 5 
[2254.7] 2 4 6 
> 
> dim(mya) 
[1] 2 10 


j 的 数据 (29321) 


array 函 数 的 第 一 个 参数 既 可 以 是 向 量 也 可 以 是 单个 值 ， 如 下 所 示 : 


> mya«-array(1, dim=c (2, 10)) 
» mya 


[1 
[2 


>] 





Го Ts 2T s. 3] 














] 


























5. 数 组 转换 为 向 量 


[, 10] 


多 维 数组 的 一 个 切片 ， 则 以 索引 为 下 标 进行 访问 ， 取 得 某 块 数组 。 使 用 [索引 ] 格 式 的 参数 


as.vector 国 数 可 将 数组 转换 为 向 量 。 示 例如 下 : 





> x«-array(c(1:10), dim=c (2, 5)) 





[1] 21] D3] D 41 1, 5] 
[1, ] T Ə 5 7 9 
[2, ] 2 Д 6 8 10 
> as.vector (х) 
[1] 1 2 3 4 5 6 7 8 910 
б.таїгіх [Е 


使 用 matrix 函 数 可 创建 矩阵 (ЛАЗ ХЕ АУЕ) ， 主 要 参数 为 : data 表 示 构 造 所 需 数据 ，nrow 为 行 数 ，nco| 为 列 数 ，byrow 表 示 是 否 按 行 顺序 分 配 元 素 (默认 为 FALSE， 不 按 ) 。 




















> matrix(c(1:10), 2, 5, TRUE) 

[ I b 21 Ls 31 Es 21 [s S] 
[Ely 1 2 3 4 5 
[2, 6 7 8 9 10 
» matrix(c(1:10), 2, 5) 

[s 4] Ly 21 [ә] 44-4] [sD 
15 1 3 5 7 9 
[2, 2 4 6 8 10 

7. 对 角 和 矩阵 





对 角 和 矩阵 是 一 个 除 主 对 角 线 上 的 元 素 之 外 皆 为 0 的 矩阵， 对 角 线 上 的 元 素 可 以 为 0 或 其 他 值 。 通 过 diag 函 数 可 生成 和 分 析 对 角 和 矩阵 ， 如 果 参 数 为 
如 果 参 数 为 一 维 以 上 数组 ， 则 将 参数 视 为 对 角 和 矩阵 ， 对 它 进行 分 析 ， 可 提取 对 角 线 元 素 。 相 关 示 例如 下 : 


维 数组 ， 则 将 参数 视 为 对 角 线 元 素 ， 并 生成 对 角 矩 阵 ， 

















































































































> а 
[1] 12345678 
> 
> diag (а) ###Ж XT ЕР 
[s J L, 21] |, 31 ЕЕ ГЕ 93 ly. 71 d. 9] 
[1, 1 0 0 0 0 0 0 0 
[2, 0 2 0 0 0 0 0 0 
[35 0 0 3 0 0 0 0 0 
[4, 0 0 0 4 0 0 0 0 
[5, ] 0 0 0 0 5 0 0 0 
[6, 0 0 0 0 0 6 0 0 
[45 ] 0 0 0 0 0 0 7 0 
[8, ] 0 0 0 0 0 0 0 8 
> a«-array(c(1:16), dim=c (4, 4)) 
> diag (a) ### 提 取 对 角 线 元 素 
[1] 1 6 11 16 
>а 
[s 1] [s 21 131. [1] 
[1, ] 1 5 9 13 
[2, ] 2 6 10 14 
[3, ] 3 7 11 15 
[4, ] 4 8 2 16 
3.8.8 ”数组 运算 
1. 四 则 运算 
数组 四 则 运算 的 规律 是 : 对 应 位 置 的 元 素 分 别 计 算 ， 而 不 是 依据 矩阵 的 数学 运算 法 则 。 运 算 符 为 “+” (加 ) 、“-” (Ж), '" (3x) 等 ， 运 算 优先 级 与 算术 四 则 运算 相同 ， 先 乘 后 加 减 。 示 例如 
下 : 
> mya 
[ж А [s 2T ls 9] [s 41 [y S] L, 6] D 7I Ls 91 [4 9] [ə 18] 
[1, ] 1 3 5 7 9 11 13 15 7 19 
[2, ] 2 4 6 8 10 12 14 6 8 20 
> myb 
[s 1] Ls 2] E31 [s 41 D.S] L, 61 L, 7I DL, 8] 1, 9] [+ 10] 
[1, ] 2 2 2 2 2 2 2 2 2 2 
[2, ] 2 2 2 ° 2 2 2 2 2 2 
> myatmyb 
[x 1] [s 21 D, 31 L, 41 L. Sl Ь 6] LOI D,8] L, 91 DL, 19] 
[1, ] 3 5 7 9 11 13 5 7 19 21 
[2, ] 4 6 8 10 12 14 6 8 20 22 
» mya*myb 
Ly LI [> 21 ls 91 L, 41 [s3] ls 6l l 7] D, 8] L, 9]-L, 10] 
Hs. ] 2 6 10 14 18 22 26 30 34 38 
[2, ] 4 8 12 16 20 24 28 32 36 40 
» 3*mya*myb 
[s 4] LD, 2] Ls 3] L, 4] 1,5] L, 6] Ls 7] L, 8] L, 9] L, 10] 
[1, ] 6 18 30 42 54 66 78 90 102 14 
[2, ] 12 24 36 48 60 72 84 96 108 120 
» 
> mya*myb-myad t, # 6 Jm 
Le EI Lg ZI L, 91 d 41 [54 D 61 D 71 p 8] d, 9] [sy 19] 





[1, ] 3 9 15 21 27 33 39 45 51 57 
[2, ] 6 12 18 24 30 36 42 48 54 60 



































> 
2. 向 量 连接 
向 量 连接 指 的 是 将 两 个 向 量 通过 某 种 规律 连接 成 一 个 数组 。R 语 言 的 cbind 和 rbind 函 数 可 进行 向 量 连 接 ， 其 中 cbind 函 数 将 向 量 的 行 转变 为 列 后 再 连接 ，rbind 函 数 将 向 量 的 列 转变 为 行 后 再 连接 。 示 例 
如 下 : 
> x2«-c(101:105) 
> xl«-c( 0) 
> cbind(x1, x2) 
Xl x2 

[1% 1 101 

[2, 2 102 

[3, 3 103 

[4, 4 104 

[5, 5 105 

[6, 6 101 

[7, 7 102 

[8, 8 103 

[9, ] 9 104 

[10, ] 10 105 
> rbind(x1l, x2) 

1] [L 21 ls 3 41 51 6] 1, 71 [s 81 b 9] 1, 10] 

x] ] 2 3 4 5 6 7 8 9 10 
x2 101 102 103 104 105 101 102 103 104 105 











3.34 ”和 矩阵 运算 


1. 和 矩阵 连接 
R 语 言 的 cbind 函 数 完 成 矩阵 的 横向 连接 ，rbind 函 数 完 成 矩阵 的 纵向 连接 。 下 面 是 关于 矩阵 的 连接 操作 示例 。 


> x3<-matrix(c(1:10), 2, 5) 
































> x4«-matrix(c(101:105), 2, 5) 
> x3 
[L1] DL21 D3] D 41 1, 5] 
[1, ] 1 3 5 7 9 
[2] 2 4 6 8 10 
> х4 
[s EL] Le 21 [s 94 154] L; 5] 
1, 0 03 105 02 04 
25 02 04 101 03 05 


[, 1] [, 2] [, 3] [, 4] 1, °] L, 6] [, 7] [, 9] [, 91 L, 10] 
[ls 1 3 5 7 9 101 103 105 102 104 
[2, ] 2 4 6 8 10 102 104 101 103 105 
























































2. 和 矩阵 转 置 
线性 代数 将 矩阵 A 的 转 置 ( 记 做 AI) 定义 为 : 
把 A 的 横行 写 为 AI 的 纵 列 ; 
把 A 的 纵 列 写 为 AI 的 横行 。 
根据 上 述 计算 法 则 ，m xn 和 矩阵 A 的 转 置 生成 nx m 和 矩阵 AT。 


AT—A 


1, D1zizmn,lzjem 


ЕЕ Ус ЕН А, 


> array(h, dim=c (2, 5))-»mya 





> шуа 

Га 4-21 PD 31 Fg 4I [э] 
11, ] 1 3 5 7 8 
[2, ] 2 4 6 8 10 
> (туа) 227 

[y 1] [s 21 
[1,] 1 2 
[2 ， 3 4 
[3, 5 6 
[4, 7 8 
[55 9 10 








相对 t 函 数 而 言 ， 用 aperm 函 数 进 行 矩阵 转 置 更 灵活 。aperm 有 两 个 党 用 的 参数 ， 第 一 个 参数 是 需要 转 置 的 矩阵， 第 二 个 参数 perm 指 示 新 矩阵 相对 于 第 一 个 参数 矩阵 的 维度 下 标 。 需 要 特别 注意 的 是 ， 
第 二 个 参数 perm 是 维度 下 标 。 比 如 ， 将 行 转换 为 列 ， 将 列 转 换 为 行 ， 将 行列 次 序 更 换 ， 将 第 一 维 的 元 素 与 第 二 维 的 元 素 互 换 ， 则 将 perm 设 为 CC2，1)。 下 面 的 代码 演示 了 aperm 国 数 的 使 用 方法 。 


> array(h, dim=c (2, 5))-»mya 


> пуа 
[; X] L2] Г, 31 1, 2] T. 5] 
[1, ] 1 3 5 7 9 
[2，] 2 4 6 8 10 
> 
> aperm(mya, perm-c(2, 1)) ->myb### 以 c (2，1) 为 维度 下 标 进 行 转 置 
> myb 
[, 41] [2 
[1, ] 1 2 
[2, ] 3 4 
[3，] Е 
[4, ] 7 8 
[О] 9 10 
> 


> array(mya, c(2, 2, 5))-»myal 





















































> myal, , 1 
I. lJ LD, 2] 
[1, ] 3 
[2, ] 2 4, , 2 
» 4I D, 2] 
[1, 5 7 
[2, 6 9, , 3 
y 41. Ls 2] 
[1, 9 1 
[2, 10 2, , 4 
> 1] [, 2] 
[15 3 5 
[2, 4 бу p 19 
Ig 41 [y 2] 
[1, ] 7 9 
[2, ] 8 10 
> aperm(myal, perm-c(2, 1, 3)) ->тур1###у4с (2, 1, 3) 为 维度 下 标 进行 转 置 
> mybl, ， 
[y 4T D, 2] 
Ls 1 2 
[2, ] 3 ар. 2 
,11 [, 2] 
[1, 5 6 
[2, 7 Oe. a 
> 1] [, 2] 
[15 9 10 
[2, 1 2, , 4 
[a AI Di 2] 
[Ly | 3 4 
[2, ] 2 6, , ° 
T 9d L 2] 
[1, ] 7 8 
[2, ] 9 10 
> aperm(myal, perm-c(1, 3, 2))-»mybl 
> турі, , 1 
[, 1] L2] L, 31 [, 4] [, 5] 
[1, ] 1 5 9 3 7 
[2, ] 2 6 10 4 By a 2 
L 1] ] 21 [y 91 [s 41 [s ә] 





3. 和 矩阵 乘积 


知 A 为 mxn 和 矩阵 ，B 为 nxr 和 矩阵， 则 它们 的 乘积 AB (有 时 记 做 A.B) 会 是 一 个 mxr 的 和 矩阵， 前 提 是 m 与 n 必 须 相 同 ， 矩 阵 乘 积 使 用 %*9% 操 作 符 进 行 计算 。 示 例如 下 : 





> а 
L.X] Ly 21 ls 3L 444] [5] 
[1, ] 3 5 7 9 
[2, ] 2 4 6 8 10 
> р 
[s. 1] [> 2] 
[1s 1 6 
[2, 2 7 
[3, 3 8 
[4, 4 9 
[5 5 10 
> a $*$ b 
[s 11 [s 2] 
[1, ] 95 220 
[2, 110 260 











4. 内 外 积 运算 
1) 向 量 外 积 。 向 量 的 外 积 是 矩阵 的 克 罗 内 克 积 的 特殊 情况 。 给 定 mx 1 列 向 量 u 和 1xn 行 向 量 v， 它 们 的 外 积 uCov 被 定义 为 nxn 和 矩阵 A。 
и (©) v—A-uv 
向 量 外 积 uCov 的 计算 定义 为 : 
b ab, abı asb, 
а ab azb 
ab; аР, asb; 
b, ab, аР, азр, 


下 面 的 代码 演示 了 a 和 b 数 组 作为 向 量 的 外 积 运算 和 普通 乘法 运算 。 


> b«-array (c(1:4)) 
> а<-аггау (c(5:6)) 
> рѕоѕа #735 














Ls 1] Lg 2] 

To ] 5 6 
[2, ] 10 12 
[3, ] 15 18 
[4, ] 20 24 
> р 

[1] 1234 
>а 

[1] 5 6 








> b«-array (c(1:4)) 
> a«-array (c(5:8)) 
> axb### 普 通 乘 法 























[1] 5122132 
> b 
[1] 1234 
>a 
11] 5678 
> a%o%b 
[ 34] L, 2] D, 31 D, 4] 

，] 5 10 15 20 
[2，] 6 12 18 24 
[3, ] 7 4 21 28 
14, ] 8 6 24 32 
> 


此 外 ， 还 可 以 使 用 Outer(a，b，“*”) 蔡 代 %o% 运 算 符 进 行 外 积 运算 。 
2) 向 量 内 积 。 向 量 内 积 以 实数 R 上 定义 的 两 个 向 量 为 运算 对 象 ， 返 回 一 个 实数 标量 值 ， 属 于 二 元 运算 ， 它 是 欧 几 里 得 空间 的 标准 内 积 。 


两 个 向 量 a=[a1，a2，…，anl 和 b=[b1，b2，…，bn] 的 内 积 定 义 为 : 
n 
a * b= У афа, +ар,+---+а,Ь, 
iz] 


R 语 言 通过 crossprod 函 数 完成 向 量 内 积 计算 。 示 例如 下 : 


> a<-c (1:3) 
> b<-c (4:6) 
> crossprod(a, b) 
1,1 3 
> a<-c (1:3) 


3) EAR. ERARAS NAAF- 1 8 2XBUSEEISIELASS — 1-33 Ала ЈАЧЕ ЕА, BR. EBAREN, YRuILAfsSRicrossprodERZAGEBXABEEPJERYEER, zB F: 





























> b«-array(c(4:6), dim=c (1, 3)) 
> a«-array(c(1:3), dim=c (1, 3)) 
^a 
, „ 2] |, 3 
[1, ] 2 3 
> р 
11,210, 3] 
|, 4 5 6 
> crossprod(a, р) ###а 5b Z A 4E EE y dfi Ж. 
[s LI] Ls 2] Í 3 
; 5 6 
2, 8 10 12 








[3, ] 12 15 18 
> t(a) $*$ Ы ай E Бр m ЖЕРЕ Р] fT L 
[s 1] L2] Db 3] 

4 5 6 

















[2. j 8 10 12 
[3,] 12 15 18 
5. 求 解 线性 方程 组 


一 般 通 过 solve 水 数 来 求解 a3%*%x=b 中 的 x 向 量 值 ， 求 解 线性 方程 组 仅 使 用 solve 函 数 的 前 两 个 参数 ， 第 一 个 a 为 系数 矩阵 ， 第 二 个 b 为 常数 项 ， 当 b 缺 失 时 ， 默 认为 单位 和 矩 阵 。 示 例如 下 : 








6 ABK 


通过 solve 函 数 可 进行 矩阵 求 逆 计算 ， 只 指定 1 个 参数 〈 待 求 逆 的 矩阵 ) 即 可 。 示 例如 下 : 





>а 

[s 1521 
[1, ] 3 
[2, ] 2 4 
> solve (а) 

[> 1] [, 2] 
1, ] =2 1.5 
[2, ] =Ü. 5 
> 

7. 矩 阵 的 特征 值 求解 


1) 特征 值 概念 。 和 是 A 的 特征 值 等 价 于 线性 系统 (А-А!) v=0 (其 中 | 是 单位 矩阵) 有 非 零 解 v (一 个 特征 向 量 ) ， 特 征 值 存在 等 价 于 下 面 行列 式 成 立 : 


аес(А-А)=0 
函数 PAA)=det(A- 和 Al) 是 一 个 关于 和 的 多 项 式 ， 称 为 A 的 特征 多 项 式 。 和 矩阵 的 特征 值 也 就 是 其 特征 多 项 式 的 零点 。 
求 一 个 矩阵 A 的 特征 值 可 以 通过 求解 方程 pPA(A)=0 来 得 到 。 


2) R 语 言 求解 特征 值 。 利 用 R 语 言 的 eigen 函 数 可 求解 特征 值 ， 调 用 格式 如 下 : 





eigen(x, symmetric, only.values = FALSE) 


其 中 ，x 为 需要 求 特 征 值 的 矩阵 ; symmetric 是 逻辑 型 ， 表 示 是 否 为 对 称 和 矩阵 ， 对 称 和 矩阵 是 一 个 方形 和 矩阵， 其 转 置 矩阵 和 自身 相等 ， 即 : A-AT, ЕВА (ai) 从 右上 至 左下 方向 的 元 素 以 主 对 角 线 
(左上 至 右 下 ) 为 轴 对 称 ， 即 : aj-aj. only.values 如 果 为 TRUE， 则 只 返回 特征 值 ， 否 则 返回 特征 值 和 特征 向 量 。 


下 面 的 代码 演示 了 eigen 函 数 计算 特征 值 的 方法 。 


> a«-array(c(1:16), dim=c (4, 4)) 

> eigen (а) ### 计 算 a 的 特征 值 

Svalues 

[1] 3.620937e+01 -2.209373e+00 1.599839e-15 7.166935е-16 
Svectors 





[, 1] [, 2] [, 3] [, 4] 
,] 0.4140028 0.82289268 -0.5477226 0.1125155 

2, ] 0.4688206 0.42193991 0.7302967 0.2495210 
[3, ] 0.5236384 0.02098714 0.1825742 -0.8365883 
4, ] 0.5784562 -0.37996563 -0.3651484 0.4745519 























> eigen(a, only.values-PALSE) 
$values 
[1] 5.3722813 -0.3722813 
$vectors 

[, 1] [, 2] 
[1, ] -0.5657675 -0.9093767 
[2, ] -0.8245648 0.4159736 

8. 求 解 矩 阵 行列 式 


行列 式 是 线性 代数 中 的 一 个 概念 ， 将 一 个 nxn 的 矩阵 A 映 射 到 一 个 标量 ， 记 作 det(A) 或 |Al。 行 列 式 可 看 作 是 有 向 面积 的 概念 在 一 般 的 欧 几 里 得 空间 中 的 推广 。 


比如 ， 假 设 和 矩阵 A 定 义 为 : 


а b c 


则 和 矩阵 A 的 行列 式 |AI 可 定义 为 : 





a 
А|=|4 e 
S 


R 语 言 的 det 消 数 可 求解 矩阵 对 应 的 行列 式 值 ， 即 : 已 知 和 矩阵 A， 求 解 |Al|。 示 例如 下 : 


> a«-array(c(1:4), dim=c (2, 2)) 


> det (x) 
[1] -2 
> 


ЕАО RREBSERSDBEERA RE, ЕБАМ. A FERAE. BBUEMZ— C mxnBDRBEE, FtrHBJyuss BS IK (实数 域 或 复数 域 ) 。 设 存在 一 个 分 解 使 得 : 
M-UXV* 

其 中 U 是 mx m 阶 本 和 矩阵 ;2 是 半 正 定 mxn 阶 对 角 和 矩阵 ; V* (БУНУ 8) 是 nxn 阶 酉 矩阵。 

这 种 分 解 称 作 M 的 奇异 值 分 解 ，7 对 角 线 上 的 元 素 XYi i 即 为 M 的 奇异 值 。 

使 用 R 语 言 的 svd 消 数 可 完成 奇异 分 解 。 示 例如 下 : 


> array(c(1:16), dim=c (4, 4))->а 
>а 





[, 1 


] 
[1, ] 1 
[2, ] 2 
[3 3 
[4 





‚| 


[ 4 
> svd (а) ### 奇 异 分 解 
5а 








су Сл н> C) 














[1] 3.862266e+01 2.071323e+00 1.291897e-15 6.318048е-16 
SU 
[, 1] [, 2] [, 3] [, 4] 
[1, ] -0.4284124 -0.7186535 0.5462756 -0.0397869 
2, ] -0.4743725 -0.2738078 -0.6987120 0.4602190 
3, 1 -0.5203326 0.1710379 -0.2414027 -0.8010772 
4, ] -0.5662928 0.6158835 0.3938391 0.3806452 















































[, 1] [, 2] [, 3] [> A] 
[1, ] -0.1347221 0.82574206 -0.4654637 -0.2886928 
[2, ] -0.3407577 0.42881720 0.405439 0.7318599 
[3, ] -0.5467933 0.03189234 0.5855124 -0.5976414 
[4, ] -0.7528288 -0.36503251 -0.5254881 0.1544743 








34 Ri 语言 计算 实例 
3.4.1 “学 生 数 据 集 读 写 


下 面 演示 R 语 言 对 学 生 数 据 集 的 操作 。R 语 言 可 以 使 用 list (列表 ) 组 件 创建 与 读 写 学 生 数据 ， 该 组 件 通常 用 来 容纳 一 个 数据 集 ， 其 中 包含 不 同 的 数据 类 型 。 


1) 创建 学 生 数 据 集 (创建 列表 的 语法 是 : list (字段 1= 组 件 1， 字 段 2= 组 件 2，.…) ) ， 学 生 数 据 集 由 3 个 不 同类 型 的 数据 组 成 : name (姓名 ， 类 型 为 字符 型 ) class (班级 ， 类 型 为 字符 型 ) 、 
ages (年 龄 ， 类 型 为 数值 型 ) 。 





> list(name-"students", class-"101", stdt.ages-c(22, 25, 20), stdt.name-c("zhangsang", "lisi", "wangwu"))-»mystudents 


2) 读 取 列表 。 下 面 的 代码 读 取 刚才 创建 的 学 生 数 据 集 : 


> mystudents 

Sname 

[1] "students" 

$class 

[1] "101" 

$stdt.ages 

[1] 22 25 20 

$stdt.name 

[1] "zhangsang" "lisi" "wangwu" 























3) 获取 学 生 数据 集 的 字段 总 数 (通过 length 返 回 list 组 件 的 数量 ) 。 


> length (mystudents) 
[1] 4 


4) 查看 数据 集中 所 有 学 生 的 姓名 和 年 龄 (通过 “列表 变量 名 $ 字 段 名 ”提取 组 件 内 容 ) 。 


> c(mystudentsS$stdt.name, mystudents$stdt.ages) 
[1] "zhangsang" "lisi" "wangwu" "22" "25" "20" 


此 外 ，R 语 言 还 提供 了 一 个 很 不 错 的 list 组 件 data.frame， 它 内 部 可 拥有 很 多 组 件 。 下 面 接着 以 学 生 数 据 为 例 讲解 data.frame。 


1) 创建 data.frame 组 件 ， 存 储 学 生 数 据 。 


> 
data.frame (name-mystudents$stdt.name, age-mystudents$stdt.ages)-»mysts 
> mysts 
name age 
1 zhangsang 22 
2 lisi 25 
3 wangwu 20 











2) 将 数据 集中 的 年 龄 都 增长 1 岁 ( 随 着 新 的 一 年 到 来 ， 学 生 们 都 长 大 了 1 岁 ) ， 完 成 这 个 操作 可 使 用 attach 和 detach 方 法 。 


前 面 一 直 用 $ 符 号 访问 list 列 表 的 字段 ， 当 R 语 言 的 代码 较 多 时 ， 列 表 组 件 名 前 红 访 问 字段 很 不 方便 ， 因 此 ，R 语 言 提供 了 另 一 对 非常 有 用 的 工具 attach 和 detach: attach 把 数据 集 的 所 有 字段 复制 一 份 副 
本 ， 绑 定 人 在 搜索 路 径 ， 这 样 可 以 直接 读 取 它 们 ( 仪 能 读 取 ， 写 回 没有 意义 ， 因 为 这 只 是 副本 而 已 ) ， 无 需 显 示 表明 列表 名 字 ; detach 则 进行 解 绑 。 


1) 用 attach 将 学 生 数据 集 的 字段 副本 绑 定 在 搜索 路 径 中 。 


> attach (mysts) 

> age 

[1] 22 25 20 

> name 

[1] zhangsang lisi wangwu 
Levels: lisi wangwu zhangsang 





2) 将 绑 定 的 age 字 段 副 本 加 1， 并 显示 更 新 后 的 学 生 数 据 。 


> age+1->mystsšage 
> mysts 


name age 
1 zhangsang 23 
2 lisi 26 


3 wangwu 21 


3) 使 用 detach 将 字段 副本 从 搜索 路 径 上 删除 ( 解 绑 ) 。 


> detach (mysts) 
> age 错误 : 找 不 到 对 象 'age' 
> name 错 误 : 找 不 到 对 象 'name' 


3.4.2 最 小 二 乘法 拟 合 
1. 最 小 二 乘法 与 回归 
最 小 二 乘法 是 一 种 数学 优化 技术 ， 它 通过 最 小 化 误差 的 平方 和 找到 一 组 数据 的 最 佳 函数 匹配 。 


假设 存在 (x, y) 这 两 个 变量 ， 对 于 一 系列 的 x 变 量 值 ， 有 一 系列 的 y 值 与 其 对 应 ， 可 以 找到 这 两 个 变量 之 间 的 相互 关系 。 比 如 : 对 于 一 次 函数 来 说 ， 可 将 这 些 (x, y) 值 标注 在 直角 坐标 系统 ， 从 而 得 
到 一 条 直线 ， 这 些 点 就 在 这 条 直线 附近 。 那 么 ， 直 线 方程 的 定义 为 : 


y=kx+b 
其 中 : k、b 是 任意 实数 ，k 为 斜率 ，b 为 截 距 。 


下 面 以 y1=3x+12 和 0y2=6x+12 为 例 进行 分 析 。 如 图 3-33 所 示 ， 实 线 为 y1 的 图 像 ， 虚 线 为 y2 的 图 像 。 从 图 像 能 直观 看 出 ， 和 斜率 越 大 ， 直 线 越 了 汗 。y1 的 斜率 是 3， 载 距 为 12; yz 的 斜率 是 6， 截 距 为 
12，y2 方 程 的 图 像 明显 比 y1 陡 。 
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93-33 ”直线 的 图 像 


图 3-33 中 标注 的 圆圈 和 星 号 为 (x，y) 格式 表示 的 二 维 数据 点 ， 很 明显 ， 圆 圈 的 数据 点 位 于 y1=3x+12 上 ， 而 星 号 的 数据 点 位 于 y2=6x+ 12 上 。 这 些 二 维 数据 点 被 y1=3x+12 和 y2=6x+12 方 程 的 图 像 连 
接 。 这 样 做 的 好 处 是 ， 我 们 不 需要 记忆 这 些 数据 点 的 坐标 就 能 预测 类 似 数 据点 的 位 置 。 比 如 说 ， 已 知 x 为 1.5 时 ， 想 要 求 圆圈 数据 点 的 坐标 ， 可 直接 将 x=1.5 代 入 y1 方 程 得 到 |: 


у=1.5 X 3-12-16.5 


这 样 就 可 用 y=kx+b 形 式 的 一 次 方程 拟 合 数据 点 ， 这 个 过 程 为 线性 拟 合 。 拟 合 的 目标 是 这 些 点 到 这 条 直线 的 距离 的 平方 和 最 小 。 最 小 二 乘法 是 效果 较 好 的 线性 拟 合 方法 ， 最 小 二 乘法 拟 合 数据 点 的 过 程 
就 是 对 数据 做 回归 分 析 ， 我 们 把 类 似 图 中 的 这 几 条 直线 称 为 回归 线 。 


2. 最 小 二 乘法 拟 合 


R 语 言 提供 了 lsift 国 数 ， 可 完成 最 小 二 乘法 拟 合 ， 其 主要 参数 如 下 。 
Хі 一 个 给 阵 的 行 对 应 的 情况 和 其 列 对 应 为 变量 。 

Y: 结果 ， 可 以 是 一 个 矩阵 。 

We 可 选 参数 ， 加 权 最 小 二 乘法 的 执行 权重 向 量 。 

' Intercept: 是 否 应 使 用 截 距 项 。 

: Tolerance: AŽ А TEED 

: Yname: 用 于 响应 变量 的 名 称 。 


下 面 来 看 看 y=2x 回 归 方程 拟 合 ， 这 里 以 Xx= (1, 2, 3, 4) , y= (2, 4, 6, 


> y«-c(2, 4, 6, 8) 

» x«-c(1, 2, 3, 4) 

> lsfit(x, у)### Tm gx RAR, Intercept} 4E 
Scoefficients 

Intercept X 

2 
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8) 为 例 在 R 中 进行 数据 拟 合 。 








上 述 拟 合 结果 中 ，lntercept 项 表示 截 距 ，x 项 表示 方程 的 x 变 量 的 常数 项 ， 因 此 ， 回 归 方 程 为 y=2x+0=2x。 


再 来 看 看 y=2x+3 回 归 方 程 拟 合 ， 设 截 距 为 3。 修 改 刚才 的 方程 ， 假 设 回归 线 为 : y=2x+3, 


1) 根据 回归 线 构 造 x 和 y 值 。 


2) 执行 Isfit0 函 数 进 行 拟 合 。 


> lsfit(x, y) 

Scoefficients 

Intercept X 
3 

















上 面 lsfit(0 函 数 的 运行 结果 表明 ， 这 些 数 据点 的 回归 方程 为 y=2x+ 3. 


343 ”交叉 因子 频率 分 析 


交叉 因子 频率 分 析 的 作用 在 于 分 析 数 据 的 分 布 区 间 及 其 统计 指标 。 下 面 举例 说 明 分 析 过 程 。 











«BPS/Text/..http://www.hzcourse.com/resource/readi 





Book?path-/openresources/teach ek 








1) 划分 数据 分 布 区 间 。 使 用 cut 函 数 将 变量 y 中 存储 的 数字 划分 到 5 个 分 布 区 间 : [11, 15]. [15, 19]. [19, 23], [23, 27], [27, 31] Т: 


> y€«-o(ll,22, 13, L4, 11, 22, 31, 31, 2315. 14) 























[1] (11, 15] 419, 23] (1, 15] (11, 15] (11, 15] (19, 23] (27, 31] 
[10] (11, 15] 
Levels: (11, 15] (15, 19] (19, 23] (23, 27] (27, 31] 














2) 使 用 table 函 数 统计 数据 在 每 个 区 间 出 现 的 频率 。 代 码 如 下 : 


> table (cuty) 

cuty 

[11, 15] (15, 19] (19, 23] (23, 27] (27, 31] 
5 0 2 0 3 


(27, 31] 


(27, 31] 


3) 使 用 hist 函 数 生成 分 布 直方 图 ， 以 便 更 直观 地 观察 数据 分 布 情况 ， 如 图 3-34 所 示 。 通 过 指定 breaks 参 数 (设置 为 各 区 间 的 边界 值 ) 和 axes 参 数 (设置 为 FALSE 表 示 手 动画 刻度 ) ， 将 数据 在 table 函 


数 生成 的 区 间 内 进行 划分 。 代 码 如 下 : 


> bins«-seq(min(y), max(y), by=4) 

> hist(y, breaks-bins, col-"lightblue", axes-FALSE 
» axis(1, bins) 

> axis (2) 





— 


结合 table 遂 数 的 执行 结果 以 及 hist 函 数 生成 的 直方 图 ， 可 得 到 以 下 结论 : 


1) 分 析 table 浮 数 的 执行 结果 可 看 出 ， 数 据 主 要 集中 在 [11，15] 区 间 中 ，[11，15] 区 间 内 分 布 的 数字 最 多 ， 该 区 间 内 有 5 个 数字 。 此 外 ， 在 [15，19]、[23，27] 区 间 中 没有 数据 分 布 ， 变 量 y 中 的 数据 在 这 


两 个 区 间 内 出 现 频率 为 0。 


2) 从 图 3-34 中 可 观察 到 ， 数 据 分 布 情况 与 table 浮 数 执行 结果 相 了 吻合 。 


Histogram of y 


quency 


Fre 
= 


U 


图 3-34 ”分 布 直方 图 


344 ”向 量 模 长 计算 





向 量 模 长 即 欧 几 里 得 范 数 ， 在 n 维 欧 几 里 得 空间 Rn 上 ， 向 量 x= (Xx1，x2，...，xn) 的 长 度 定义 为 : xl 
根据 勾 股 定理 ， 它 给 出 了 从 原点 到 点 x 之 间 的 距离 。 
1. 模 长 函数 定义 


R 拥 有 自 定义 函数 功能 ， 可 按 如 下 格式 定义 : 





函数 名 <-function (41, 442, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...， 参 数 n) { 





下 面 定义 求 三 维 向 量 模 长 的 vector_length 函 数 ， 完 成 模 长 计算 。 





> vector length<-function (x1, х2, х3) { 
+ vlength«-sqrt (х1^2+х2^2+х3^2) 
+ vlength 


+) 

















2. 模 长 计算 
调用 vector length 函 数 ， 计 算 向 量 [12，33，19] 的 模 长 。 


Vector length(12, 33, 19) 
] 


2 一 一 
[1] 39.92493 
> 


N 维 向 量 的 模 长 计算 与 三 维 模 长 类 似 。 下 面 重新 定义 vectorn_length 函 数 ， 并 调用 它 计算 任意 维度 向 量 的 模 长 。 


> Vectorn length<-function (х) { 
+ temp«-0 
t for (i in 1:length (х)) { 
temp«-temp-*x[i]^2 

















+ vlength«-sqrt (temp) 
+ vlength 








># 下 面 调用 新 的 Vectorn length: Ж ХА K 
































> vectorn length(c(11, 22, 33, 44, 55)) 
[1] 81.57818 

» vectorn length(c(11, 22, 33, 55)) 

[1] 68.69498 


345 ЕЕЕ 


欧 氏 距离 (Euclid Distance) 是 在 n 维 空间 中 两 个 点 之 间 的 真实 距离 ，n 维 欧 氏 空间 的 每 个 点 可 以 表示 为 (x[1]，x[2]，.…，x[n])，X=(Xx[1]，x[2]，.…，x[n]) 和 Y=(y[1]，y[2]，.…，y[n]) 这 两 个 点 之 间 的 距 
离 dX，Y) 定 义 为 下 面 的 公式 : 
dX, Y)-sqttQ (Hil-ylip^2) # Рі=1, 2, …, n 


利用 R 语 言 的 操作 符 自 定义 功能 完成 欧 氏 距离 计算 ， 操 作 符 的 定义 使 用 % 符 号 % 的 方式 定义 ， 实 际 使 用 时 ，% 也 属于 操作 符 的 一 部 分 。 操 作 符 的 定义 格式 如 下 : 











操作 符 名 <-function (参数 1， 参 数 2，http://www.hzcourse.corVresource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...， 参 数 n) { 
语句 














} 


下 面 定义 %~% 操 作 符 ， 并 计算 二 维 空间 的 欧 氏 距离 。 示 例如 下 : 








> "%~%"<-function (x1, х2) { 


for (i in 1:length (х1)) { 
temp«-temp- (x1l[i]-x2[i])^2 
+} 

+ edis«-sqrt (temp) 

* edis 

















+ | 

># J %-% ТЕЛ, ЗР Е EDS] EA AGES 
> c(1, 2, 3) %-% с(5, 6, 7) 

[1] 6.928203 

> 





可 以 将 计算 扩展 到 n 维 空间 中 。 使 用 R 语 言 的 不 定数 量 的 函数 参数 机 制 ， 来 定义 n 维 空间 的 欧 氏 距离 函数 mycount。 示 例如 下 : 

















> mycount«-function (http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...) { 
+ temp-0 

- for (iin с 
temp-temp*tl 
} 























(http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ероок/ипсотргеѕѕеа/15753/0ЕВРЅ/Техі/...)) { 

















+ temp 
жае, 22, 33) 
const 22, 33, 66) 
> тусше (11, 22, 66) 


























35. ДЕ 


本 章 对 Python 语言 和 R 语 言 的 语法 基础 以 及 相关 计算 平台 API 进 行 了 讲述 ， 同 时 ， 用 大 量 实例 讲解 了 相关 计算 平台 的 实际 操作 。 


Python 语言 和 R 语 言 是 本 书 讲解 机 器 学 习 用 到 的 主要 语言 ， 也 是 机 器 学 习 工程 应 用 中 可 能 用 到 的 编程 语言 ， 在 此 建议 大 家 平时 多 阅读 R 语 言 和 Python 语言 的 官网 教程 和 相关 计算 平台 资料 ， 加 深 对 它们 
的 理解 。 


因 本 书 篇 幅 有 限 ， 更 多 的 关于 R 语 言 和 Python 语言 的 资料 可 以 查询 相关 官网 。 下 面 列 举 了 常用 的 官网 链接 。 
R 语 言 文档 资料 链接 : 

http://cran.r-project.org/manuals.html 

Python 科学 计算 库 文 档 资料 链接 : 

http://docs.python.org/2/ 

http://docs.scipy.org/doc/ 

http://docs.opencv.org/master/modules/refman.html 


从 下 章 开 始 ， 我 们 将 正式 进入 机 器 学 习 和 统计 分 析 的 实战 。 建 议 大 家 在 浏览 器 中 将 上 面 的 文档 链接 收藏 ， 以 便 更 好 地 理解 本 书 内 容 。 此 外 ， 从 本 章 开始 ， 每 章 小 结 后 均 有 思考 题 ， 希 望 大 家 在 阅读 本 书 
的 过 程 中 ， 多 动手 ， 多 上 机 操作 ， 理 论 联系 实践 才 是 王道 。 


cH 
dk 
Ёш 


(1) 本 章 中 提 到 了 Python 将 信息 隐藏 在 声音 和 图 像 载体 文件 的 方法 ， 能 不 能 将 隐藏 了 信息 的 图 像 载 体 文件 隐藏 在 一 段 音乐 之 中 ? 
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(2) 用 R 语 言 分 析 一 个 数据 集 的 数据 ， 将 数据 分 为 适当 的 区 间 ， 然 后 统计 数据 在 每 个 区 间 的 分 布 数量 ， 并 作出 直方 图 。 
Qi 用 因子 频率 分 析 方 法 实现 。 
(3) 用 R 语 言 在 x: 和 y 之 间 建 立 回归 模型 ， 得 出 回归 直线 方程 ，x=[1，3，8，9]，y=[2，8，23，80] 


Өт “使 用 R 语 言 的 回归 计算 画 数 分 析 。 


第 4 章 ”生产 环境 基础 


机 器 学 习 的 任务 是 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行 为 ， 重 新 组 织 已 有 的 知识 结构 使 之 不 断 改善 自身 的 性 能 ， 它 是 人 工 智 能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 。 


从 目前 的 发 展 情形 来 看 ， 机 器 学 习 主 要 依靠 各 种 算法 来 实现 ， 比 如 : 神经 网 络 、SVM、 决 策 树 、K 近 邻 、K-Means、 回 归 算 法 等 。 而 算法 是 对 特定 问题 求解 过 程 的 描述 ， 是 为 解决 某 一 特定 问题 而 采取 
的 具体 有 限 的 操作 步骤 。 随 着 计算 机 科学 技术 的 友 展 ， 算 法 在 计算 机 方面 已 有 了 广泛 的 发 展 及 应 用 。 算 法 可 理解 为 计算 机 指令 的 有 限 序 列 ， 每 条 指令 完成 一 个 或 多 个 操作 ， 它 是 描述 计算 机 程序 行为 的 语 


言 ， 是 让 程序 变 得 最 为 简洁 的 思考 方式 。 程 序 在 调试 完毕 后 ， 需 要 投入 到 实际 运行 阶段 ， 这 个 阶段 需要 一 个 运行 平台 ， 这 就 是 生产 环境 。 


在 工业 界 ， 生 产 环 境 主 要 指 生 产 现场 中 进行 制造 的 地 点 ， 包 括 生 产 工 装 、 量 具 、 工 艺 过 程 、 材 料 、 操 作者 、 环 境 和 过 程 设置 。 在 软件 工程 领域 界 ，“ 生 产 环 境 ” 一 词 是 指 软 件 调试 完毕 并 正式 启用 后 实 
际 运行 的 环境 。 在 该 环境 下 ， 软 件 系 统 运行 的 目标 是 稳定 、 安 全 、 可 靠 。 目 前， 生产 环境 中 最 常用 的 是 Windows Server 和 Linux/UNIX 两 种 ， 考 虑 到 读者 普遍 比较 熟悉 Windows 系 统 ， 本 章 将 重点 讲解 
Linux 下 的 生产 环境 基础 。 


4.1 Windows Server 2008 基 础 


以 Windows Server 2008 作 为 生产 环境 ， 可 开发 、 提 供 和 管理 丰富 的 企业 级 应 用 程序 ， 充 分 利用 其 提供 的 高 度 安全 的 网 络 基 础 架构 ， 提 高 和 增加 技术 的 效率 与 价值 。Windows Server 2008 建 立 在 网 络 
和 虚拟 化 技术 之 上 ， 可 提高 基础 服务 器 设备 的 可 靠 性 和 灵活 性 。 新 的 虚拟 化 工具 、 网 络 资源 和 增强 的 安全 性 等 均 可 降低 成 本 ， 为 动态 和 优化 的 数据 中 心 提供 平台 。 故 障 转移 集群 的 改进 可 简化 集群 ， 提 高 集 
群 的 稳定 性 并 使 得 它们 更 加 安全 ， 新 的 故障 转移 集群 验证 向 导 可 用 于 测试 存储 。 此 外 ，Windows Server 2008 还 包括 一 个 新 的 TCP/IP 协 议 栈 ， 称 为 下 一 代 TCP/IP 协 议 栈 。 下 一 代 TCP/IP 协 议 栈 完 全 重新 设 
计 了 TCP/IP 功 能 ， 兼 容 了 互联 网 协议 第 4 版 (IPv4) 和 互联 网 协议 第 6 版 (IPv6) ， 符 合 不 同 的 网 络 环境 和 技术 的 连通 性 和 性 能 需要 。 


4.1.1 Windows Server 2008 R2 概 述 


Windows Server 2008 是 专 为 强化 下 一 代 网 络 、 应 用 程序 和 Web 服 务 的 功能 而 设计 的 ， 是 有 史 以 来 最 先进 的 Windows Server 操 作 系统 。 与 Windows Server 2008 相 比 ，Windows Server 2008 R2 继 
续 拓 展 了 虚拟 化 、 系 统管 理 弹 性 、 网 络 存 取 方 式 ， 以 及 信息 安全 等 领域 的 应 用 。Windows Server 2008 R2 中 重要 的 新 功能 包含 : Hyper-V 加 入 了 动态 迁移 的 功能 ， 作 为 最 初 发 布 版 中 快速 迁移 功能 的 一 个 改 
进 ，Hyper-V 将 以 毫秒 计算 迁移 时 间 ， 与 VMware 公司 的 ESX 或 其 他 管理 程序 相 比 ， 它 是 Hyper-V 功 能 的 一 个 强项 。 此 外 ， 它 还 强化 了 PowerShell 对 各 个 服务 器 角色 的 管理 指令 。 该 系统 具有 以 下 特色 : 


: Hyper-V 2.0: 使 虚拟 化 的 功能 与 可 用 性 更 完备 。Hyper-V 2.0 不 仅 支持 Live Migration 动 态 迁 移 ， 还 能 支持 更 多 的 Linux 操 作 系 统 安装 在 VM 上 。Windows Server 2008 推 出 半年 后 ， 微 软 就 推出 了 内 建 在 
Windows Server 2008 上 的 虚拟 化 平台 Hyper-V 1.0， 这 个 版 本 虽然 具有 基本 的 虚拟 化 功能 ,但 是 相 比 于 其 他 虚拟 化 平台 却 薄弱 许多 ， 如 缺乏 动态 迁移 功能 ， 因 此 无 法 在 不 停止 虚拟 主机 (УМ) 的 情况 下 ， 将 VM 
转移 到 其 他 实体 服务 器 上 。 目 前 ， 这 项 功能 在 Windows Server 2008 R2 的 Hyper-V 2.0 上 开始 支持 ， 使 得 这 项 虚拟 化 平台 的 可 用 性 迈进 了 一 大 步 。 


· Active Directory Administrative Center: 可 离线 加 入 网 域 、AD 资 源 回 收 简 (AD 可 强化 管理 接口 与 部 署 弹性 ) o Active Directory(AD) 在 Windows Server 操 作 系 统 中 从 来 都 是 举足轻重 的 服务 器 角 
色 ，Windows Server 2008 R2 对 此 也 强化 了 不 少 功 能 。 例 如 县 有 新 的 AD 管 理 接 口 ， 同 时 还 能 使 用 PowerShell 指 令 操 作 ; 可 让 计算 机 离线 加 入 网 域 ， 并 有 AD 资 源 回 收 站 ， 增 加 了 AD 成 员 的 增删 弹性 。 


- Windows PowerShell 2.0 与 Server Core: Server Cote 模 式 支持 .NET，R2 改 善 了 Server Core 不 支持 .NET Framewotk 且 不 能 使 用 PowetShell 的 缺点 。 现 在 在 指令 操作 为 主要 要 求 的 Setrvet Cote 中 ， 可 以 搭配 
PowerShell， 从 而 使 服务 器 管理 的 操作 更 有 效率 。Server Cote 安 装 选项 是 安装 Windows Server 2008 操 作 系 统 的 一 种 新 的 选择 。Server Cote 安 装 提 供 了 一 个 最 小 的 运行 环境 作为 特定 的 服务 器 角色 ， 降 低 了 服务 器 
的 维护 管理 强度 ， 同 时 降低 了 服务 器 角色 被 黑客 攻击 的 可 能 性 。 


: Remote Desktop Services: 可 提升 桌面 与 应 用 程序 的 虚拟 化 功能 。 在 新 版 的 RDS 中 ， 也 增加 了 新 的 Remote Desktop Connection Broker (RDCB) 。 这 项 功能 可 整合 RDS 所 有 的 应 用 程序 服务 器 ， 包 含 实体 


主机 和 VIM。 

: DirectAcess: 可 提供 更 方便 、 更 安全 的 远程 联机 通道 。DirectAccess 让 VPN 通 道 的 建立 变 得 更 加 简便 ， 可 整合 多 种 验证 机 制 及 NAP， 有 助 于 提高 联机 过 程 中 的 安全 性 。 

: BranchCache: 可 加 快 分 公司 之 间 档 案 存 取 的 新 做 法 。 利 用 档案 快 取 的 方式 ， 可 以 就 近 存 取 先 前 已 经 下 载 过 的 档案 ， 除 了 能 更 快 地 取得 分 享 数 据 之 外 ， 也 能 减少 对 外 联机 频 宽 的 浪费 。 

: URL-based QoS: 企业 可 进一步 控 管 网 页 存 取 频 宽 。 企 业 可 以 针对 所 有 个 人 计算 机 连接 特定 网 站 的 联机 定义 优先 权 ， 加 快 重要 网 页 的 存 取 速度 。 

: BitLocker to Со: 支持 可 移 除 式 存 储 装 置 加 密 。BitLocker to Go 加 密 随 身 碟 这 一 步骤 的 特别 之 处 在 于 可 以 整合 智能 卡 验证 使 用 者 身份 的 真实 性 ， 使 得 存储 装置 的 控 管 变 得 更 加 安全 。 

: AppLocke: 可 提高 个 人 端 应 用 程序 的 控 管 度 。AppLocketrs 可 称 为 软件 限制 原则 的 加 强 版 本 ， 除 了 具备 一 切 旧 有 功能 ， 最 为 重要 的 是 企业 可 以 通过 不 可 随意 修改 的 发 行者 信息 ， 有 效 地 禁止 或 允许 应 用 
程序 的 执行 ， 同 时 也 更 加 完善 了 其 自身 的 安全 性 能 。 


4.1.2 Windows PowerShell 


Windows Powershell 是 微软 公司 为 Windows 环 境 所 开发 的 壳 程 序 (Shell) 及 脚本 语言 技术 ， 采 用 的 是 命令 行 界面 。 这 项 全 新 的 技术 提供 了 丰富 的 控制 选项 与 自动 化 的 系统 管理 能 力 。Microsoft 推 出 
Windows PowerShell 的 目的 是 : 使 Windows Powershell 成 为 相当 于 UNIX/Linux 系 统 的 命令 行 壳 程 序 (如 sh、bash 或 csh) ， 同 时 还 可 内 置 脚本 语言 及 辅助 脚本 程序 的 工具 。 


Windows Powershell 以 .NET Framework 技 术 为 基础 ， 并 且 与 现 有 的 WsH 保 持 向 后 兼容 ， 因 此 它 的 脚本 程序 不 仅 能 访问 .NET CLR， 也 能 使 用 现 有 的 COM 技 术 。 同 时 还 包含 了 数 种 系统 管理 工具 ， 简 
易 且 一 致 的 语法 ， 可 提升 管理 者 的 处 理 能 力 ， 常 见 的 如 登录 数据 库 、WMI 等 。Windows PowerShell 具 有 以 下 优势 : 


` 一致 性 的 设计 让 所 有 的 工具 和 系统 数据 的 使 用 语法 、 命 名 原则 都 相同 。 
* 脚本 语言 简单 易学 ， 而 且 还 能 支持 现 有 的 脚本 程序 和 命令 行 工 具 。 


: 内 含 129 种 被 称 为 cmdlet 的 标准 工具 ， 可 用 来 处 理 常 见 的 系统 管理 工作 。 


` 具备 完整 的 可 扩展 性 ， 独 立 软 件 商 或 开发 者 都 能 很 容易 地 根据 需求 自行 扩充 。 


进程 间 数 据 传 递 的 内 容 具 有 强 类 型 特征 。 


以 下 示例 演示 了 Windows PowerShell 的 基本 使 用 方法 。 


获取 所 有 命令 : 


PS> Get-Command 


查看 Get-Command 命 令 的 用 法 : 


PS» Get-Help Get-Command 


停止 目前 正在 运行 的 以 'p 字符 开头 来 命名 的 所 有 程序 : 


PS» get-process p* | stop-process 


停止 目前 正在 运行 的 使 用 大 于 1000MB 存 储 器 的 所 有 程序 : 





PS» get-process | where ( $ .WS -gt 1000MB } | stop-process 


计算 某 个 目录 下 文件 内 的 字 节 大 小 : 


PS» get-childitem | measure-object -property length -Sum 





等 待 一 个 名 为 “notepad” 的 程序 运行 退出 : 


PS» SprocessToWatch = get-process notepad 
PS» SprocessToWatch.WaitForExit () 








Fr'hello, world "字符 串 转 为 英文 大 写字 符 ， 使 其 变 成 "HELLO，WORLDI : 


PS» "hello, world!".ToUpper () 


在 字符 串 "string "的 第 1 个 字符 后 插入 字符 串 "ABC"， 使 其 变 成 "SABCtring  : 


PS» "string".Insert(1, "ABC") 











订阅 一 个 指定 的 RSS Feed 并 显示 它 最 近 的 8 个 主题 : 


PS» $rssUrl = "http://blogs.msdn.com/powershell/rss.aspx" 
PS» Sblog = [xml] (new-object System.Net.WebClient).DownloadString ($rssUrl) 
PS» $blog.rss.channel.item | select title -first 8 


























将 "$UserProfile" 设 置 成 数值 "UserProfile" 的 环境 变量 : 








PS» SUserProfile = Senv:UserProfile 


@ == 更 多 的 Windows PowerShell 资料 可 查阅 如 下 网 址 : 
http:/ /www.pstips.net/powershell-online-tutorials 


Һер: / /msdn.microsoft.com/en-us/library /dd835506(VS.85).aspx 


42 Linuxi 


Linux 最 初 是 作为 支持 英特尔 x86 架 构 的 个 人 计算 机 的 一 个 自由 操作 系统 ， 目 前 Linux 已 经 被 移植 到 更 多 的 计算 机 硬件 平台 上 ， 远 远 超出 其 他 的 任何 操作 系统 。Linux 发 行 版 一 直 被 用 来 作为 服务 器 的 主流 
操作 系统 ， 并 且 已 经 在 该 领域 中 占据 了 重要 的 地 位 ， 世 界 上 500 个 最 快 的 超级 计算 机 90% 以 上 运行 的 均 是 Linux 发 行 版 或 其 变种 ， 包 括 最 快 的 前 10 名 超级 计算 机 运行 的 都 是 基于 Linux 内 核 的 操作 系统 。 曾 经 
是 世界 上 最 强大 的 超级 计算 机 一 一 IBM 的 红 杉 (IBM Sequoia) ， 已 于 2011 年 交付 劳伦斯 利 福 摩尔 国家 实验 室 ， 并 于 2012 年 6 月 开始 运作 ， 也 是 选择 Linux 作 为 操作 系统 。Linux 也 广泛 应 用 于 嵌入 式 系 统 
上 ， 如 手机 、 平 板 电 脑 、 路 由 器 、 电 视 和 电子 游戏 机 等 。 广 泛 使 用 于 移动 设备 上 的 Android 操 作 系 统 就 是 创建 于 Linux 内 核 之 上 的 。4.2.1 节 将 以 常用 的 Linux 版 本 CentOS 为 例 ， 来 讲解 Linux 命 令 。 


4.2.1 Linuxáp s 


1.Linux 命 令 基 础 


Linux 命 令 是 对 Linux 系 统 进行 管理 的 命令 。 对 于 Linux 系 统 来 说 ， 无 论 是 中 央 处 理 器 、 内 存 、 磁 盘 驱 动 器 、 键 盘 、 鼠 标 ， 还 是 用 户 等 都 是 文件 ，Linux 系 统管 理 的 命令 是 它 正常 运行 的 核心 ， 与 之 前 的 
DOS 命 令 类 似 。Linux 命 令 在 系统 中 有 两 种 类 型 : 内 置 Shell 命 令 和 Linux 命 令 。 本 节 讲 解 Linux 命 令 ，Shell 命 令 将 在 4.2.2 节 讲解 。 


Linux 命 令 通 常 具有 以 下 格式 : 


命令 名 [命令 选项 ] [命令 参数 ] 


先 来 看 一 个 最 简单 的 命令 “su” ， 该 命令 用 于 用 户 的 身份 转换 。su 命 令 可 以 转换 用 户 身份 ，su 用 户 名 表示 转 到 某 用 户 ， 若 su 命令 不 带 参数 则 表示 直接 转 到 超级 用 户 root。 命 令 提 示 符 “$” 表示 普通 用 


户 状 态 ， 


“#” 表 示 超 级 用 户 状态 。 下 面 的 操作 将 演示 身份 转换 : 








2. 常 用 Linux 命 令 


以 下 是 系统 信息 与 系统 管理 中 常用 的 Linux 命 令 的 示例 : 


arch 

cal 2007 

cat /proc/cpuinfo 
cat /proc/interrupts 
/proc/meminfo 
/proc/swaps 
/proc/version 
/proc/net/dev 
/proc/mounts 
clock -w 





t ct ct ct ct ct 











-h now 

-h 22:50 & 
=ë 

-r now 


=E -b ob db db db db =E Hb =E Db =E db += += db db += += += 





tdown 


显示 机 器 的 处 理 器 架构 
显示 2007 年 的 日 历 表 

显示 CPU info 的 信息 

显示 中 断 

校 验 内 存 使 用 
显示 哪些 swap 被 使 用 
显示 内 核 的 版 本 

显示 网 络 适 配器 及 统计 
显示 已 加 载 的 文件 系统 
将 对 时 间 的 修改 保存 到 BIOS 
显示 系统 日 期 

显示 USB 设备 
显示 机 器 的 处 理 器 架构 
显示 正在 使 用 的 内 核 版 本 
注销 

重启 

关闭 系统 

按 预 定时 间 22:50 关 闭 系 统 
取消 按 预 定时 间 关 闭 系统 
重启 





以 下 是 文件 和 目录 管理 中 常用 的 Linux 命 令 : 









































以 下 是 用 户 与 用 户 组 管理 中 常用 的 Linux 命 令 : 





# cd /home 进入 \home 目 录 

# cp filel file2 复制 一 个 文件 

# 15 查看 目录 中 的 文件 

# mkdir dir 创建 dir 目 录 

# mv mydir new mydir 重 命 名 /移动 一 个 目录 

# pwd 显示 工作 路 径 

# rm -f file 删除 file 文 件 

# find / -name myfile 从 '/' 开始 进入 根 文件 系统 搜索 myfile 文 件 
# mount -o loop myfile.iso /mnt/cdrom 挂 载 一 个 文件 或 ISO 镜像 文件 

# df -h 显示 已 经 挂 载 的 分 区 列表 

# cat filel 从 第 一 个 字 节 开始 正 向 查看 文件 的 内 容 





# groupadd [group] 创建 一 个 新 用 户 组 

f groupdel [group] 删除 一 个 用 户 组 

4 passwd 修改 口令 

# passwd myuser 修改 用 户 的 口令 

f useradd myuser 创建 一 个 新 用 户 

# userdel myuser 删除 一 个 用 户 

f chgrp mygroup myfile 改变 文件 的 群 组 
3. 主 要 命令 解析 及 近 巧 

(1) ls 命令 
ls 命令 将 指定 目录 的 文件 及 目录 输出 在 屏幕 中 。 示 例如 下 : 


$ ls 


hadoop-2.4.1 hadoop-2.4.1-src.tar.gz  hadoop-2.4.1.tar.gz numpy pypy-2.3.1-src 





此 外 ， 通 过 加 上 “-la” 参 数 可 表示 : 以 长 格式 的 形式 查看 当前 目录 下 的 所 有 文件 ， 包 括 隐藏 文件 。 文 件 各 字段 的 含义 如 下 : 
| 文件 属性 : drwxr-xr-x 


. 文件 硬 链接 数 或 目录 子 目 录 数 : 3 (一 个 空 目录 的 该 字段 是 2， 表 示 该 目录 下 有 两 个 子 目 录 ， 因 为 每 一 个 目录 都 有 一 个 指向 它 本 身 的 子 目 录 "." 和 指向 它 上 级 目录 的 子 目 
录 "http:/ /www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15753/OEBPS/Text/..") 


: 所 有 者 : user 

“所属 用 户 组 : group 
. 文件 大 小 : 102 byte 
- 修改 时 间 : Маг11 22:56 


文件 名 : Filename 


下 例 演 示 了 该 参数 的 用 法 : 




































































drwx------ 6 myhaspl myhasp 4096 9H 10 16:55 . 

drwxr-xr-x. 3 root root 20 9H 10 08:23 http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 
-rw------- . 1 myhaspl myhasp 220 9H 10 17:59 .bash history 

drwxr-xr-x. 9 myhaspl myhasp 4096 6H 21 14:38 hadoop-2.4.1 

-rw-r--r--. 1 myhaspl myhaspl 15417097 6H 21 14:42 hadoop-2.4.1-src.tar.gz 

-rw-r--r--. 1 myhaspl myhaspl 138656756 6H 21 14:42 hadoop-2.4.1.tar.gz 

drwxr-xr-x. 8 myhaspl myhasp 4096 9H 10 17:02 numpy 

drwxr----- 3 myhaspl myhasp 18 9H 10 16:21 .pki 

drwxrwxr-x. 14 root root 4096 9H 10 16:25 pypy-2.3.1-src 


(2) cd 命令 及 多 条 命令 同行 


cd 命令 的 功 


$cd http: //www.hzcourse.com/resource/readl 


S6 Еа 
BOXE 
























































切换 当前 目录 ， 示 例如 下 : 





















































Book?path-/openresources/teach ebook/uncompressed/15753/OE 


T 


BPS/Text/.. 









































































































































$cd /home/ 

$cd /opt 

此 外 ， 还 可 以 将 多 个 命令 写 在 同一 行 ， 一 次 使 用 ， 用 分 号 隔 开 ， 比 如 : 

$ ls -la ;cd numpy;ls 总 用 量 150484 

drwx------ 6 myhaspl myhaspl 4096 9H 10 16:55 . 

drwxr-xr-x. 3 root root 20 9H 10 08:23 http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 

-Yw------- 1 myhaspl myhaspl 220 9H 10 17:59 .bash | history 

drwxr-xr-x. 9 myhaspl myhaspl 4096 6H 21 14:38 hadoop-2.4.1 

-rw-r--r--. 1 myhaspl myhaspl 15417097 6H 21 :42 hadoop-2.4.1-src.tar.gz 

-rwW-r--r--.; myhaspl myhaspl 138656756 6H 21 14:42 hadoop-2.4.1.tar.gz 

drwxr-xr-x. 8 myhaspl myhaspl 4096 9H 10 17:02 numpy 

drwxr----- 3 myhaspl myhasp 18 9H 10 16:21 .pki 

drwxrwxr-x. 14 root root 4096 9H 10 16:25 pypy-2.3.1-src 

BENTO BUILD.txt build INSTALL.txt  pavement.py  setupegg.py 
THANKS.txt 

bento.info COMPATIBILITY LICENSE.txt  README.txt setup.py tools 

branding DEV README.txt  MANIFEST.in release.sh site.cfg.example  tox.ini 

bscript doc numpy runtests.py TEST COMMIT 


如 上 面 的 结果 所 示 ， 首 先 ， 先 执行 第 1 条 Is 命令 ， 输 出 当前 目录 下 的 文件 列表 ， 然 后 
(3) 命令 


可 以 让 进程 在 后 台 


Ig SAM 


Š 
[1] 





后 台 执 行 


J 并 返回 ,如 下 所 示 : 


545 


3 


find ~ -name doc & 


运行 ， 执 行 命令 后 立即 返回 ， 


$ /home/myhaspl/hadoop-2.4.1/share/doc 


/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 





/hom 


e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 





e/m 


yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 





/руру-2.3. 
/руру-2.3. 
/pypy-2.3. 
/numpy/doc 


/numpy/buil 
/numpy / nump 
/numpy / nump 
/numpy / nump 





(4) 重 定向 与 管道 


重 定向 是 指 对 原来 系统 命令 的 默认 执行 方式 进行 改变 ， 


1-src/site-packa 


l-src/ctypes coni 


1-src/pypy/doc 


d/lib.linux-x86 ` 


y/doc 
y/numpy/doc 
y/numpy/ Ё2ру/ао 





cmd»file 把 stdout 重 定向 到 file 文 件 中 。 


行 第 2 条 cd 命令 ， 进 入 numpy 目 录 后 ， 执 行 第 3 条 ls 命令 ， 输 出 numpy 目 录 下 的 内 容 。 


ул. 


这 样 还 可 以 继续 执行 其 他 命令 ， 只 要 在 命令 行 的 最 后 加 上 “&” 即 可 。 下 面 的 示例 是 查找 含有 字符 串 “doc” 的 文件 ， 因 查找 过 程 比较 漫 


ges/numpy/doc 
figure/doc 





64-2 .7/numpy/doc 


С 


比如 将 原本 在 显示 器 中 的 输出 改 为 输出 到 某 一 文件 中 。 常 用 的 重 定 向 命令 如 下 所 示 (cmd 表 示 命 令 ，file 表 示 文 件 或 设备 ) : 


cmd» >file 把 stdout 重 定向 到 file 文 件 中 (追加 ) 。 


cmd 1>file 把 stdout 重 定向 到 file 文 件 中 。 


cmd» file 2» &1 


cmd 2»file 把 stderr 重 定向 到 file 文 件 中 。 


把 stdout 和 stderr 一 起 重 定 向 到 file 文 件 中 。 


cmd 2>>file 把 stderr 重 定向 到 file 文 件 中 (追加) 。 


下 面 以 实例 来 讲解 主要 的 重 定向 操作 。 首 先 来 讲解 重 定向 操作 符 “>"” 


$ 
[1] 
$ ls 


hadoop-2.4.] 
hadoop-2.4. 
+ 完成 





[1] 


546 


$ cat m 


/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 





/hom 
$ 


e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 





e/m 


1 


Src.tar.gz 








ydocl 


yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 


i 





st 
/hadoop-2.4 
/pypy-2.3. 
/руру-2.3. 


/руру-2.3. 
/numpy/doc 


/numpy/buil 
/numpy / nump 
/numpy / nump 
/numpy / nump 
/numpy / nump 





接 下 来 讲解 重 定向 操作 符 ' 


$ 
[1] 





546 


$ cat m 


/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 
/hom 





/hom 


e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 
e/m 





e/m 


6 


ydoclist 


yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 





/hadoop-2.4. 
/руру-2.3. 

/руру-2.3. 
/pypy-2.3. 
/numpy/doc 
/numpy/buil 
/numpy / nump 
/numpy / nump 
/numpy / nump 
/numpy / nump 
/hadoop-2.4 
/hadoop-2. 
/hadoop-2.4 
/hadoop-2. 
/hadoop-2. 
/hadoop-2. 
/hadoop-2. 
/hadoop-2. 
/hadoop-2. 
/hadoop-2. 
/hadoop-2. 
/hadoop-2. 
/hadoop-2. 








find ~ -name doc »mydoclist & 


hadoop-2.4.1 
mydoclist 
find ~ -name 





.l/share/doc 


1-src/site-packa 
l-src/ctypes coni 
1-src/pypy/doc 


d/lib.linux-x86 
y/doc 
y/numpy/doc 
y/numpy/ Ё2ру/ао 
y/build/lib.lin 





i 


>>" 


find ~ -name hadoop »»mydoclist & 


1/share/doc 


1-src/site-packa 
l-src/ctypes coni 
1-src/pypy/doc 


d/lib.linux-x86 ` 


y/doc 
y/numpy/doc 
y/numpy/ #2ру/ао 
y/build/lib.lin 
.1/bin/hadoop 
.1/etc/hadoop 
.1/share/hadoop 
.1/share/hadoop 
.1/share/hadoop 
.1/share/doc/ha 
.1/share/doc/ha 
.1/share/doc/ha 
.1/share/doc/ha 
.1/share/doc/ha 
.1/share/doc/ha 
.1/share/doc/ha 
.1/share/doc/ha 








мы 


， 下 面 的 例子 演示 了 先 使 用 find 命 令 来 查找 含有 “doc” 的 文件 ， 然 后 使 用 “>” 将 结果 列表 重 定向 到 一 个 文件 中 : 


.tar.gz numpy 
pypy-2.3.1-src 
doc » mydoclist 


ges /numpy/doc 
Figure/doc 





|. 64-2.77/numpy/doc 


c 
ux-x86 64-2.7/numpy/doc 


， 下 面 的 例子 先 使 用 find 命 令 查找 文件 ， 然 后 使 用 “> > ”将 查找 结果 重 定向 到 文件 nydoclist 中 : 


ges /numpy/doc 
Figure/doc 





64-2. 7/numpy/doc 


C 
ux-x86 64-2.7/numpy/doc 








/httpfs/ 
/httpfs/ 
doop 
doop/api/src-html/org/apache/hadoop 

doop/api/org/apache/hadoop 

doop/api/org/apache/hadoop/lib/service/hadoop 
doop/hadoop-hdfs-httpfs/apidocs/src-html/org/apache/hadoop 
doop/hadoop-hdfs-httpfs/apidocs/src-html/org/apache/hadoop/lib/service/hadoop 
doop/hadoop-hdfs-httpfs/apidocs/org/apache/hadoop 
doop/hadoop-hdfs-httpfs/apidocs/org/apache/hadoop/1lib/service/hadoop 


fs/W 
s/W 


EB- 
EB- 


NF/cJ 
NF/c] 


asses/org/apache/hadoop 
asses/org/apache/hadoop/1ib/service/hadoop 


t/webapps/webhdf 
t/webapps /webhdf 


сомса 
сомса 













































































长 ， 故 而 直接 在 


再 接 下 来 ， 看 一 个 MO 重 定向 的 例子 。 在 Linux 系 统 中 ， 标 准 输入 (stdin) 的 文件 描述 符 为 0， 标 准 输出 (stdout) 的 文件 描述 符 为 1， 标 准 错误 输出 (stderr) 的 文件 描述 符 为 2。 
标准 输出 重 定向 命令 格式 如 下 所 示 : 


1>] 





filename 或 1>>filename 


下 例 演示 了 I/O 重 定向 的 使 用 方法 ， 将 标准 输出 重 定向 到 文件 abc 中 : 


$ echo "aaa" 1» abc 
Š cat abc 

aaa 

$ echo "aaa" 1»» abc 
Š cat abc 

aaa 

aaa 


$ 


标准 错误 输出 重 定向 命令 格式 如 下 所 示 : 


2»1 





Filename X2>>filename 





下 例 演示 了 如 何 将 标准 错误 输出 重 定向 到 文件 error.log 中 : 


$ rm /root/* 2»error.log 
$ cat error.log 


rm: 无 法 删除 "/root/*": 权限 不 够 
$ 


此 外 ， 还 可 以 使 用 “i> &j” 将 文件 描述 符 束 示 的 输出 文件 重 定向 到 文件 描述 符 j 表 示 的 文件 中 。 


最 后 ， 讲 解 tee 命 令 与 管道 操作 符 “|” 的 合并 使 用 ， 实 现在 输出 的 同时 ， 表 输出 一 份 同样 的 内 容 给 管道 。 下 例 演示 了 如 何 列 出 目录 的 内 容 并 输出 给 mylist 文 件 : 


$ ls |tee mylist 




















hadoop-2.4.1 
hadoop-2.4.1-src.tar.gz 
hadoop-2.4.1.tar.gz 
mydoclist 

numpy 

pypy-2.3.1-src 

$ cat mylist 
hadoop-2.4.1 
hadoop-2.4.1-src.tar.gz 
hadoop-2.4.1.tar.gz 
mydoclist 

numpy 

pypy-2.3.1-src 

$ 


Qi 管道 是 Linux 中 很 重要 的 一 种 通信 方式 ， 是 将 一 个 程序 的 输出 直接 连接 到 另 一 个 程序 的 输入 。 


(5) 通配符 


在 文件 管理 等 操作 中 ， 可 以 使 用 通配符 ， 最 常用 的 通配符 如 下 : 
жу DAFA 
?证 本 年 有 有 


此 外 ， 还 可 以 使 用 “~ ”来 表示 当前 用 户 的 主 目录 。 


下 例 演 示 了 如 何 使 用 ls 命令 加 通配符 的 模式 列 出 指定 目录 “~/numpy/” 的 内 容 : 































































































$ ls ~/numpy/*.py 
/home/myhaspl/numpy/pavement.py  /home/myhaspl/numpy/setupegg.py 
/home/myhaspl/numpy/runtests.py  /home/myhaspl/numpy/setup.py 
$ ls -/numpy/*.txt 
/home/myhaspl/numpy/BENTO BUILD.txt  /home/myhaspl/numpy/LICENSE.txt 
/home/myhaspl/numpy/DEV README.txt ^ /home/myhaspl/numpy/README.txt 
/home/myhaspl /numpy/INSTALL.txt /home/myhaspl /numpy/THANKS . txt 
$ ls -/numpy/setup*.p 
/home/myhaspl/numpy/setupegg.py  /home/myhaspl/numpy/setup.py 
$ ls -/numpy/setup.?? 

umpy/setup.py 























/home/myhaspl/n 
$ 


(6) 作业 管理 


可 以 使 用 jobs 命令 显示 当前 作业 ，grep 命 令 是 一 种 强大 的 文本 搜索 工具 ， 它 能 使 用 正则 表达 式 搜索 文本 。 下 例 将 这 二 者 结合 起 来 ， 输 出 文件 列表 中 包括 字符 串 "se "的 文件 名 ， 并 将 输出 结果 放 到 myse 文 
件 中 : 

















5 find ~ -name "*.py"|grep se >myse & 

[1] 2258 

$ jobs 

[1]+ 运行 中 find ~ -name "*.py" | grep se > myse & 
$ jobs 

[1]+ 完成 find ~ -name "*.py" | grep se > myse 
$ cat myse 


-src/dotviewer/graphparse.py 
-src/dotviewer/graphserver.py 


/home/myhaspl/pypy-2.3.1 
/home/myhaspl/pypy-2.3.1 

















下 例 演 示 了 使 用 Kill 命令 来 停止 作业 ， 其 中 sleep 表 示 该 作业 休眠 ， 后 面 的 时 间 参 数 可 以 是 s (EP) . h (小 时 ) . m (分 钟 ) 或 d (日 数 ) : 
































5 (find ~ -name "*.?y"|grep se >myse; sleep 10s )& 

[1] 2365 

$ jobs 

[1]+ 运行 中 ( find ~ -name "*.?y" | grep --color-auto se > myse; sleep 10s ) & 
S kill $1 

$ jobs 

[1]* EZ ( find ~ -name "*.?y" | grep --color-auto se > myse; sleep 10s ) 

$ 


(7) 查询 命令 使 用 方式 


可 以 使 用 man 命 令 行 的 方式 来 查询 命令 帮助 ， 下 面 演示 了 查询 ls 命令 的 帮助 信息 : 


man 15 


Hx: 

~ 表示 当前 用 户 的 主 目录 。 

.表示 当前 目录 。 

* http://www.hzcoutse.com/resourtce/readBook?path=/opentesoutces/teach_ebook/uncomptressed/15753/OEBPS/Text/.. 表 示 上 级 目录 。 
(8) 链接 文件 


在 Linux 中 ， 可 用 不 同 的 文件 名 引用 同一 个 数据 或 程序 ， 称 为 硬 链接 ， 可 在 同一 物理 文件 系统 中 ， 创 建 硬 链接 。 下 例 演示 了 硬 链接 的 使 用 方法 : 


$ ls -la 总 用 量 151228 














































































































drwx------ . 6 myhaspl myhaspl 4096 9H 18 08:55 . 

drwxr-xr-x. 3 root root 20 9] 10 08:23 http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 
-Yw------- . 1 myhaspl myhaspl 1915 9H 16 18:05 .bash | history 
drwxr-xr-x. 9 myhaspl myhaspl 4096 6H 21 14:38 nadoop-2.4.1 
-rw-r--r--. 1 myhaspl myhaspl 15417097 6H 21 14:42 hadoop-2.4.1-src.tar.gz 
-rw-r--r--. myhaspl myhaspl 138656756 6H 2 :42 hadoop-2.4.1.tar.gz 
-rw-r--r--. myhaspl myhaspl 1454 9H 16 10:53 mydoclist 

-rw-rw-r--. myhaspl myhaspl 88 9H 16 17:25 mylist 

-rw-rw-r--. myhaspl myhaspl 357304 9H 16 08:55 mypylist 

-rw-rw-r--. myhaspl myhaspl 31954 9H 16 18:02 myse 

drwxr-xr-x. 8 myhaspl myhaspl 4096 9H 16 10:39 numpy 

drwxr----- . 3 myhaspl myhaspl 18 9H 10 16:21 .pki 

drwxrwxr-x. 14 root root 4096 ОД 10 16:25 pypy-2.3.1-src 
-rw-rw-r--. 1 myhaspl myhaspl 357304 9H 16 17:57 se 

$ ln mypylist mypylistl 

$ ls -la 总 用 量 151580 

drwx------ 6 myhaspl myhaspl 4096 9H 18 08:56 . 

drwxr-xr-x. 3 root root 20 9 月 10 08:23 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 
-Yw------- . 1 myhaspl myhaspl 1915 9H 16 18:05 .bash | history 
drwxr-xr-x. 9 myhaspl myhaspl 4096 6H 21 14:38 nadoop-2.4.1 
-rw-r--r--. 1 myhaspl myhaspl 15417097 6H 21 :42 hadoop-2.4.1-src.tar.gz 
-rw-r--r--. myhaspl myhaspl 138656756 6H 21 14:42 hadoop-2.4.1.tar.gz 
-Yrw-r--r--. myhaspl myhaspl 1454 9H 16 10:53 mydoclist 

-rw-rw-r--. myhaspl myhaspl 88 9H 16 17:25 mylist 

-rw-rw-r--. 2 myhaspl myhaspl 357304 9H 18 08:55 mypylist 

-rw-rw-r--. 2 myhaspl myhaspl 357304 9H 18 08:55 mypylisti 

-rw-rw-r--. 1 myhaspl myhaspl 31954 9H 16 18:02 myse 

drwxr-xr-x. 8 myhaspl myhaspl 4096 9H 16 10:39 numpy 

drwxr----- . 3 myhaspl myhaspl 18 9H 10 16:21 .pki 

drwxrwxr-x. 14 root root 4096 9H 10 16:25 pypy-2.3.1-src 
-rw-rw-r--. 1 myhaspl myhaspl 357304 9H 16 17:57 se 

$ ln mypylist mypylist2 

$ 15 -Іа Ж € 151932 

drwx------ 6 myhaspl myhaspl 4096 9H 18 09:27 . 

drwxr-xr-x. 3 root root 20 9 月 10 08:23 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 
-Yw------- . 1 myhaspl myhaspl 1915 9H 16 18:05 .pash | history 
drwxr-xr-x. 9 myhaspl myhaspl 4096 6H 21 14:38 nadoop-2.4.1 
-rw-r--r--. 1 myhaspl myhaspl 15417097 6H 21 :42 hadoop-2.4.1-src.tar.gz 
-rw-r--r--. myhaspl myhaspl 138656756 6H 21 :42 hadoop-2.4.1.tar.gz 
-rw-r--r--. myhaspl myhaspl 1454 9H 16 10:53 mydoclist 

-rw-rw-r--. myhaspl myhaspl 88 9H 16 17:25 mylist 

-rw-rw-r--. 3 myhaspl myhaspl 357304 9H 18 08:55 mypylist 

-rw-rw-r--. 3 myhaspl myhaspl 357304 9H 18 08:55 mypylistl 

-rw-rw-r--. 3 myhaspl myhaspl 357304 9H 18 08:55 mypylist2 

-rw-rw-r--. 1 myhaspl myhaspl 31954 9H 16 18:02 myse 

drwxr-xr-x. 8 myhaspl myhaspl 4096 9H 16 10:39 numpy 

drwxr----- 3 myhaspl myhaspl 18 9H 10 16:21 .pki 

drwxrwxr-x. 14 root root 4096 ОД 10 16:25 pypy-2.3.1-src 
-rw-rw-r--. 1 myhaspl myhaspl 357304 9H 16 17:57 se 






































































































































































































































从 几 条 命令 的 执行 结果 可 以 看 到 : mypylist 的 硬 链接 数量 在 增加 。 


在 Linux 下 也 可 以 创建 软 链接 ， 这 种 链接 跨越 了 不 同 的 物理 文件 系统 ， 也 称 为 符号 链接 文件 ， 与 硬 链接 不 同 的 是 ， 它 是 一 个 单独 的 文件 ， 存 放 着 目标 文件 的 路 径 


$ ln -s mypylist mypyl 





$ ls -Іа Ж € 151932 




















drwx------ . 6 myhaspl 
drwxr-xr-x. 3 root 

—fw------- . 1 myhaspl 
drwxr-xr-x. 9 myhaspl 
-rw-r--r--. 1 myhaspl 
= WT myhaspl 
-rw-r--r--. myhaspl 
-rw-rw-r--. myhaspl 
-rw-rw-r--. 3 myhaspl 
-rw-rw-r--. 3 myhaspl 
-rw-rw-r--. 3 myhaspl 
lrwxrwxrwx. 1 myhaspl 





(9) 文件 权限 








is 


d 


r 





s ыр ы ырлыр ы ы ы ы ы 


ts 


yhaspl 


oot 


yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 
yhaspl 








4096 
15417097 
138656756 


357304 
357304 
8 


对 于 一 般 的 Linux 文 件 而 言 ， 权 限 如 下 所 示 : 


允许 读 文件 内 容 。 


twi 允许 修改 文件 内 容 。 


允许 执行 该 文件 。 


对 于 Linux 目 录 而 言 ， 权 限 如 下 所 示 : 


允许 列 出 该 目录 下 的 文件 和 子 目 录 。 


(wi 允许 生成 和 删除 该 目录 下 的 文件 。 


允许 访问 该 目录 。 


ul 代表 所 有 者 (user) 























мы 


NAZ 





08:23 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 
































10:53 mydoclist 








17:25 mylist 








08:55 mypylist 
08:55 mypylistl 
08:55 mypylist2 
09:35 mypylists 











18:05 .bash | history 
14:38 hadoop-2.4. 
14:42 hadoop-2.4. 
:42 hadoop-2.4.1. 


1-src.tar.gz 
tar.gz 





-» mypylist 


了 软 链接 的 使 用 方式 : 


(gn 代表 所 有 者 所 在 的 组 群 (group) 。 
o: 代表 其 他 人 ， 但 不 是 u 和 g (other) 。 
a: 代表 全 部 的 人 ， 也 就 是 包括 ua、g 和 o。 
此 外 ， 还 可 以 通过 chmod 命 令 来 改变 权限 。 该 命令 的 格式 如 下 所 示 : 
chmod [用 户 类 型 ] (+/-) 访问 权限 的 格式 文件 或 目录 名 
下 例 演示 了 如 何 改变 权限 ， 将 mytext 设 置 为 所 有 的 人 可 写 为 : 


chmod a+w mytext 


下 例 演 示 了 文件 myrun 的 生成 、 权 限 的 授予 及 最 后 执行 的 过 程 : 


$ echo "1ѕ;есһо N"okN"" »myrun 
$ cat myrun 

ls;echo "ok" 

5 chmod +х ./myrun 

















$ ./myrun 

abc hadoop-2.4.1 mydoclist mypylistl тугоп pypy-2.3.1-src 
abd hadoop-2.4.1-src.tar.gz mylist mypylist2  myse se 

error.log Mhadoop-2.4.1.tar.gz mypylist | mypylists  numpy 

ok 


可 通过 ps 命令 显示 当前 进程 ， 通 过 kill 命 令 杀 死 进 程 ，kill 命 令 终止 进程 的 调用 格式 如 下 (pid 为 进程 号 


kill -9 pid 


下 例 演 示 了 显示 进程 及 杀 死 进程 的 过 程 : 首先 ， 执 行 ls 命令 后 开始 休眠 ， 整 个 过 程 处 于 一 个 进程 内 ， 然 后 在 该 进程 休眠 后 ， 通 过 ps 命令 查找 该 进程 的 PID 号 ， 最 后 用 Kill 命令 终止 该 进程 。 


5 ls;sleep 20& 
$ ps -a 

PID TTY TIME CMD 
2245 pts/0 00:00:00 sleep 
2246 pts/0 00:00:00 ps 





































































































$ ps -ef 

UID PID PPID C STIME TTY TIME CMD 

root 1 0 0 16:07 ? 00:00:01 /usr/lib/systemd/systemd 
--switched-root - 

root 2 0 0 16:07 ? 00:00:00 [kthreadd] 

root 3 2 0 16:07 ? 00:00:00 [ksoftirqd/0] 

root 5 2 0 16:07 ? 00:00:00 [kworker/0:0H] 

root 6 2 0 16:07 2 00:00:00 [kworker/u2:0]--- ees Я 
myhasp 2245 2176 0 17:04 pts/0 00:00:00 sleep 20 

myhasp] 2247 2176 0 17:04 pts/O 00:00:00 ps -ef 

$ kill -9 2287 

myhasp] 2289 2261 0 17:11 pts/1 00:00:00 ps -ef 

11+ £455 sleep 20 


(11) 用 户 管理 


下 例 演示 了 通过 useradd 命 令 、userdel 命 令 进行 增加 或 删除 用 户 的 操作 : 


# useradd -m testl 
# ls /home/ 
myhaspl  testl 

# su testl 

$ su 

# userdel testi 


(12) 磁盘 空间 管理 


下 例 演示 了 通过 df 命令 来 查看 空间 的 使 用 情况 : 
































# df 文件 系统 1К-Ж 已 用 可 用 Ee RE 
/dev/mapper/centos-root 7022592 2545964 4476628 37% / 

devtmpfs 632192 0 632192 0% /dev 

cmpfs 638148 0 638148 05 /dev/shm 

cmpfs 638148 8320 629828 2% /run 

tmpfs 638148 0 638148 $ /sys/fs/cgroup 
/ dev/sda1 508588 126640 381948 25$  /boot 

# 


下 例 演示 了 通过 du 命令 来 查看 某 个 目录 或 文件 的 占用 空间 : 





|. OK numpy/ .git/refs/heads 
numpy/ .git/refs/tags 




















|. OK numpy/ .git/refs/remotes/origin 
4.0K numpy/ .git/refs/remotes 

8.0K numpy/ .git/refs 

0 numpy/ .git/branches 


4K numpy/ .git/hooks 
4.0K numpy/.git/info 
28M numpy/ .git/objects/pack 


























4.2.2 Shelli 


Shell 是 Linux 系 统 的 用 户 界面 ， 为 用 户 与 内 核 进行 交互 操作 提供 的 一 种 接口 。 它 接收 用 户 输入 的 命令 并 把 它 送 入 内 核 执 行 。 实 际 上 Shell 是 一 个 命令 解释 器 ， 它 解释 用 户 输入 的 命令 并 且 把 它们 送 到 内 核 
中 。 不 仅 如 此 ，shell 还 有 自己 的 编程 语言 ， 用 于 对 命令 进行 编辑 ， 它 允许 用 户 编写 由 Shell 命 令 组 成 的 程序 。shell 编 程 语言 具有 普通 编程 语言 的 很 多 特点 ， 比 如 它 也 有 循环 结构 和 分 支 控制 结构 等 ， 用 这 种 
编程 语言 编写 的 Shell 程 序 与 其 他 应 用 程序 具有 同样 的 效果 。 


1. 建 立 和 运行 Shell 文 件 
什么 是 Shell 程 序 呢 ? 


首先 编辑 如 下 Shell 文 件 test1.sh， 并 将 扩展 名 命名 为 ".sh": 


#!/bin/sh 
ls -la 

cd numpy 
ls 





然后 ， 对 Shell 文 件 进行 权限 授权 ， 如 下 所 示 : 


Š chmod а+гх testl.sh 


最 后 运行 该 Shell 文 件 ， 如 下 所 示 : 


$ ./testl.sh 


2.Shell 的 命令 行 参 数 


1) 读 取 某 个 命令 行 参 数 。 可 使 用 $0 到 $n 表示 对 第 0 到 第 n 个 参数 进行 操作 。 


$ cat testl.sh 
#!/bin/sh 

echo "$0 " 

echo "$1 " 

echo "$2 " 

$ ./testl.shab c 
./test1.sh 


b 
2) 弹出 所 有 命令 行 


$ cat testl.sh 
#!/bin/sh 
until [D -z "SI" ] 





./testl.sh a b ce de £ 








3) 使 用 $* 和 $@ 表 示 所 有 参数 。 下 例 演示 了 通过 for 循 环 依次 读 取 命令 行 


$ cat testl.sh 
#!/bin/sh 
index=1 

for myarg in $* 
do 





echo "NO#$index=$myarg" 
let "index+=1" 

done 
$ ./testl.shabcdef 
NO#1=a 

NO#2=b 

NO#3=c 

NO#4=d 

NO#5=e 

NO#6=f£ 











3.Shell 变 量 


可 以 通过 在 变量 名 的 前 面 加 “$” 取 变量 的 值 或 以 “${ 变 量 名 


1) 读 写 变量 。 


下 面 例子 首先 定义 了 a、b 两 个 变量 ， 然 后 将 a 变量 的 值 赋值 给 b 变 量 ， 最 后 输 


$ cat testl.sh 
#!/bin/sh 

a=12 

b=$a 

echo $b 

$ ./testl.sh 
12 

$ 


2) 变量 的 间接 引用 。 下 例 演示 了 通过 “${! 变 量 名 }” 的 方式 对 变量 进行 间接 


$ cat testl.sh 
#!/bin/sh 

a-12 

b-a 

echo ${!b} 

$ ./testl.sh 
12 

$ 


4. 条 件 表 达 式 


1) 下 面 的 例子 演示 了 如 何 通 过 “if...thenhttp://www.hzcourse.com/reso 


简单 地 说 Shell 程 序 就 是 一 个 包含 若干 行 Shell 或 Linux 命 令 


参数 。shift 从 命令 行 参数 中 弹出 第 1 个 参数 ，until 开 始 循环 ， 


下 面 演示 了 依次 输出 程序 的 命令 行 


如 下 所 示 : 


参数 列表 中 的 元 素 并 输出 : 


}” 的 方式 对 变量 进 


027 : 


引用 ， 读 取 变 量 值 : 


urce/readBook? 


参数 : 


行 操作 。 


的 文件 。 下 面 以 实例 来 说 明 如 何 建 立 并 运行 Shell 文 件 。 


path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..elsehttp://www.hzcourse.com/resource/readBook? 


path-z/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..fi" 


的 方式 来 完成 条 件 


选择 ， 如 果 a>b， 则 输出 GT， 


否则 输出 LT: 


$ cat testl.sh 
#!/bin/sh 

a=1 

р=2 

if [ Sa -gt Sp ] 
then 


echo "GT" 





else 

echo "LT" 
fi 
$ ./testl.sh 
LT 
5 





2) 下 面 的 例子 演示 了 如 何 通过 “if...thenhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..elif...then... 
elsehttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..fi” 的 方式 来 完成 条 件 选 择 ， 如 果 a>b， 则 输出 GT， 如 果 a= =b 则 输出 
eq， 否 则 输出 LT : 


$ cat testl.sh 
#!/bin/sh 
a=2 


if [ Sa -gt SD ] 


echo "GT" 
elif [ $a -eq $b ] 
then 
echo "eq" 
else 
echo "LT" 
fi 
$ ./testl.sh 
eq 
5 

















3) 下 面 的 例子 演示 了 如 何 通过 “case.…in…esac…” 语 句 来 完成 条 件 选择 ， 程 序 输出 菜单 后 ， 用 户 选择 适合 的 菜单 项 ， 然 后 通过 case 系 列 语 句 读 取 用 户 的 选择 并 输出 : 


$ cat testl.sh 

#!/bin/sh 

echo " 

echo "1.a" 

echo "2p" 

echo "3.c" 

read mychoice 

case $mychoice in 
1) echo "a";; 
2.) echo. "przy; 
3 ) echo "c";; 

esac 

exit 0 

$ ./testl.sh 














oo 


iO N O N HG 


5. 循 环 


(1) for 循 环 


下 例 演示 了 如 何 通过 “for...in...do...done” 的 语句 来 完成 循环 的 操作 : 程序 首先 执行 ls 命令 ， 读 取 当 前 目录 下 的 文件 列表 ， 然 后 使 用 for 语 句 逐 个 读 取 文 件 列表 并 输出 文件 名 。 


$ cat testl.sh 
#!/bin/sh 
for filename in '15' 
do 

echo $filename 
done 
$ ./testl.sh 
1 
abc 
abd 
error.log 
hadoop-2.4.1 
hadoop-2.4.1-src.tar.gz 
hadoop-2.4.1.tar.gz 
hello 
mydoclist 


























下 例 演 示 了 如 何 列 出 非 目录 性 质 的 文件 的 操作 : 程序 首先 执行 Is 命令 ， 读 取 当 前 目录 下 的 文件 列表 ， 然 后 使 用 for 语 句 逐 个 读 取 文 件 列表 ， 对 列表 中 的 每 个 文件 使 用 “-f” 进行 检测 ， 如 果 是 文件 ， 则 输 
出 文件 名 ， 否 则 跳 过 不 处 理 。 


$ cat testl.sh 
#!/bin/sh 

for filename in '15' 
do 











i [ -£ $filename ] 
then 
echo $filename 























fi 
done 
$ ./testl.sh 

1 

abc 

abd 

error.log 
hadoop-2.4.1-src.tar.gz 
hadoop-2.4.1.tar.gz 
hello 

mydoclist 

у12 























(2) while 循 环 


下 例 演示 了 while 循 环 的 操作 ， 程 序 通 过 while 循 环 来 完成 将 变量 a 的 值 由 1 递增 到 9， 并 输出 : 





$ cat testl.sh 
#!/bin/sh 

a=1 

while [ $a -lt 10 ] 


echo $a 
a='expr $a + 1' 
done 
$ ./testl.sh 


л» хо со —] суол н QO N 


下 例 演 示 了 如 何 使 用 while 循 环 来 显示 所 有 的 偶数 ， 其 中 ， 将 条 件 设 为 “:” 或 “true”， 表 示 恒 为 真 的 意思 : 


$ cat testl.sh 
#!/bin/sh 

a=0 

while : 

do 





let "a-$a + 1" 
if [ $a -gt 20 ] 
then 

break 





if [ S((Ša%2)) -eq 1] 
then 
continue 








Il 

echo $a 
done 
$ ./testl.sh 


` OO бу > № 





оос > N O 


э оњ кн ҥн ҥе 





下 例 演示 了 如 何 使 用 while 循 环 来 实现 重 定向 |/O 的 功能 : 





$ cat testl.sh 
#!/bin/sh 
while read name age 
do 
echo $name 
echo $age 
done«student.txt 
S cat student.txt 
zhangsan 20 
lisi 18 
liumi 19 
$ ./testl.sh 
zhangsan 
20 
lisi 
18 
liumi 
19 
5 











(3) ип 


下 例 演 示 了 如 何 通过 until 循 环 来 完成 变量 a 的 递增 ， 并 在 满足 条 件 (a>10) 后 退出 : 





$ cat testl.sh 
#!/bin/sh 
a=1 


echo $a 
a='expr $a + 1' 
done 
$ ./testl.sh 


Xr — хо со олом F 





下 例 演示 了 如 何 通过 until 循 环 来 进行 重 定向 : 


$ cat testl.sh 
#!/bin/sh 
until ! read name age 
do 
echo $name 
echo $age 
done«student.txt 
$ ./testl.sh 
zhangsan 
20 
lisi 
18 
liumi 
19 





6.select3z ёа 


select 使 用 PS3 环 境 变 量 的 值 作为 提示 符 ， 下 例 演示 了 如 何 使 用 select 来 实现 类 似 菜单 的 功能 ， 用 户 在 年 龄 为 “<18”、“<28” 和 < “60” 之 间 选 择 : 


$ cat testl.sh 
#!/bin/sh 
PS3="choice:" 
echo 
select age in "<18" "<28" "<60" 
do 
echo 
echo "age is $age" 
break 
done 
exit 0 
$ ./testl.sh 
1) «18 
2) «28 
3) «60 
choice:2 
age is «28 


until 的 重 定向 示例 如 下 : 


$ cat testl.sh 
#!/bin/sh 
until ! read name age 
do 
echo $name 
echo $age 
done<student .txt 
$ ./testl.sh 
zhangsan 
20 
lisi 
18 
liumi 
19 
$ 





7.Shellggz& 


下 例 定义 了 函数 jsodd， 用 于 判断 奇偶 数 : 


$ cat testl.sh 

#!/bin/sh 

isodd(){ 

if [ $(($122)) -eq 1 ] 


return 1 





return 0 








read mynum 
isodd $mynum 











myodd-$? 
if [ S$myodd -eq 1] 
then 
echo "Smynum is an odd number" 
else 
echo "Smynum is an even number" 
LL 
$ ./testl.sh 
12 
12 is an even number 
$ ./testl.sh 














33 is an odd number 


43 Vim 编辑 器 


4.3.1 ”Vim 编辑 器 概述 


Vim 是 从 Vi 发 展 出 来 的 一 个 文本 编辑 器 。 代 码 补充 、 编 译 及 错误 跳 转 等 便于 编程 的 功能 特别 丰富 ， 在 程序 员 中 被 广泛 使 用 。 与 Emacs 并 列 成 为 类 UNIX 系 统 用 户 最 喜欢 的 编辑 器 。Vim 的 操作 模式 很 特 
别 ， 它 强大 的 编辑 能 力 中 有 很 大 一 部 分 是 来 自 于 模式 和 命令 的 组 合 。 


命令 的 组 合 是 指 通 过 一 些 非 常 简短 的 字符 (包括 英文 、 数 字 、 符 号 等 ) 组 合成 各 种 命令 。 比 如 : 普通 模式 命令 “dd” 表示 删除 当前 行 ，“dj” 表 示 删 除 到 下 一 行 ， 原 理 是 第 一 个 “d” 的 含义 是 删 
le, P 键 表示 移动 到 下 一 行 ， 组 合 后 “dj” 表示 删除 当前 行 和 下 一 行 。 另 外 还 可 以 指定 命令 的 重复 次 数 ，“2dd“”′ (重复 “dd” 两 次 ) 和 “dj” 的 效果 是 一 样 的 。“d^”， 其 中 “^” 代表 行 首 ， 故 组 合 
后 的 含义 是 删除 从 光标 开始 到 行 首 间 的 内 容 (不 包含 光标 ) ; “d$”， 其 中 “$ ”代表 行 尾 ， 删 除 从 光标 到 行 尾 的 内 容 (包含 光标 ) ; 用 户 若 学 习 了 各 种 各 样 的 文本 间 移 动 或 跳 转 的 命令 和 其 他 的 普通 模式 
的 编辑 命令 ， 并 且 能 够 灵活 地 组 合 使 用 的 话 ， 那 么 就 能 够 比 那 些 没 有 模式 的 编辑 器 更 加 高 效 地 进行 文本 编辑 。 


模式 的 组 合 是 指 通过 一 些 非常 简短 的 英语 字符 就 可 转换 进入 各 种 模式 。 比 如 : 在 普通 模式 中 ， 有 很 多 方法 可 以 进入 插入 模式 。 比 较 普通 的 方式 是 按 “a” (append/ 追 加 ) 键 或 “” (insert/ 插 入 ) 
键 。 


可 通过 下 面 的 方式 来 启动 Vim: 

$vim 

启动 后 ， 显 示 界 面 如 图 4-1 所 示 。 

启动 后 可 进行 一 些 简 单 的 操作 。 首 先 ， 可 按 i 键 进入 插入 模式 ， 输 入 字符 ， 如 图 4-2 所 示 。 


然后 ， 按 Esc 键 退出 插入 模式 ， 输 入“:wq!hello”， 并 以 “hello” 为 文件 名 ， 存 盘 退 出 。 


VIM - Vi IMproved 


版 本 7.4.160 
维护 人 Bram Moolenaar 等 
修改 者 «bugzilla(redhat.com» 
Vim 是 可 自由 分 发 的 开放 源 代 码 软 件 


赞助 vim 的 开发 ! 
:help sponsor<Enter> 查看 说 明 


:q<Enter> 退出 
:help<Enter> 或 «Fl» 查看 在 线 帮助 
:help version7<Enter> 查看 版 本 信息 


| |SSH2 xterm 90127 11 1 会 话 





图 4-1 Vim 界 面 
最 后 ， 可 通过 cat 命 令 显 示 文 件 内 容 ， 如 下 所 示 : 


$ cat hello 
hello 
world! 








4.3.2 _ Vim 常用 命令 


1. 模 式 转换 命令 


模式 间 切 换 的 方法 有 如 下 三 种 情况 。 
其 他 模式 转 普通 模式 : Esc 键 。 


. 普通 模式 转 插 入 模式 ， 如 下 列 命令 所 示 : 


i 在 光标 前 插入 I 在 行 首 插入 

a 在 光标 后 插入 A 在 行 末 插入 

o 在 当前 行 之 下 新 建行 O 在 当前 行 之 上 新 建行 
r 替换 当前 字符 R 从 当前 字符 开始 替换 


图 4-2 ”插入 模式 





1) 可 以 使 用 以 下 方式 来 移动 光标 : 

j 向 下 k 向 上 

BHA һи 

Ww 下 一 个 单词 词 首 。”W 将 特殊 符号 视 为 单词 的 一 部 分 
b 上 一 个 单词 词 首 。B 同 上 

e 单 词 未 尾 E 同 上 (忽略 标点 ) 

0 行 首 人 ^ 行 首 文字 ( 行 首 空格 之 后 ) 

$ 行 末 

2) 可 用 以 下 方式 进行 编辑 : 


ХЕЗУ) ЗАВ ddA 


y 复 制 可 视 模 式 选取 字符 ”yy 复制 当前 行 

p 在 光标 后 粘贴 P 在 光标 前 粘贴 

u 撤 消 ”r 字 符 所 有 字符 替换 为 新 字符 

u U~ 分 别 是 所 有 字母 变 小 写 、 变 大 写 、 反 转 大 小 写 
> < 分 别 是 缩 进 和 反 缩 进 <Ctrl+r> 重 做 


<Ctrl+y> 逐 字 克 隆 上 一 行内 容 <Ctrl+e> 逐 字 克 隆 下 一 行内 容 


44 ”虚拟 化 平台 


维基 百科 将 虚拟 化 (Virtualization) 定义 为 : “虚拟 化 是 一 种 资源 管理 技术 ， 是 将 计算 机 的 各 种 实体 资源 ， 如 服务 器 、 网 络 、 内 存 及 存储 等 ， 予 以 抽象 、 转 换 ， 然 后 呈现 出 来 ， 打 破 实体 结构 间 的 不 可 
切割 的 障碍 ， 使 用 户 能 以 比 原本 的 组 态 更 好 的 方式 来 应 用 这 些 资 源 。 这 些 资源 的 新 虚拟 部 分 是 不 受 现 有 资源 的 架设 方式 、 地 域 或 物理 组 态 所 限制 的 ， 一 般 所 指 的 虚拟 化 资源 包括 计算 能 力 和 数据 存储 。 可 以 
看 到 它 始 终 如 一 的 目标 就 是 实现 对 iT 资源 的 充分 利用 。” 与 多 任务 及 超 线程 技术 不 同 的 是 ， 虚 拟 化 技术 允许 同时 运行 多 个 操作 系统 ， 而 且 每 一 个 操作 系统 中 都 有 多 个 程序 在 运行 ， 每 一 个 操作 系统 都 运行 在 
一 个 虚拟 的 CPU 或 是 虚拟 主机 上 。 而 超 线程 技术 只 是 单 CPU 模 拟 双 CPU 来 平衡 程序 运行 性 能 ， 这 两 个 模拟 出 来 的 CPU 是 不 能 分 离 的 ， 只 能 协同 工作 ; 多 任务 则 是 指 在 一 个 操作 系统 中 多 个 程序 同时 一 起 运 


¿— 
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1959 年 ， 克 里 斯 托 弗 (Christopher Strachey) 发 表 了 一 篇 学 术 报告 ， 名 为 “大 型 高 速 计算 机 中 的 时 间 共 享 ”， 他 在 文中 提出 了 虚拟 化 的 基本 概念 ， 这 篇 文章 也 被 认为 是 虚拟 化 技术 的 最 早 论述 。 可 以 
说 虚拟 化 作为 一 个 概念 被 正式 提出 就 是 从 此 时 开始 的 。 最 早 在 商业 系统 上 实现 虚拟 化 的 是 IBM 公 司 在 1965 年 发 布 的 IBM 7044， 它 允许 用 户 在 一 台 主 机 上 运行 多 个 操作 系统 ， 让 用 户 尽 可 能 充分 地 利用 昂贵 
的 大 型 机 资源 ， 之 后 IBM 还 开发 了 型 号 为 Model 67 的 System/360 主 机 ，Model 67 主 机 通过 虚拟 机 监视 器 (Virtual Machine Monitor) 虚拟 所 有 的 硬件 接口 。 在 早期 的 计算 中 ， 操 作 系统 被 称 为 
Supervisor， 能 够 运行 在 其 他 操作 系统 之 上 的 操作 系统 被 称 为 hypervisor，VMM 直 接 运 行 在 底层 硬件 上 ， 人 允许 执行 多 个 虚拟 机 (VM) ， 每 一 个 VM 运行 自己 的 操作 系统 实例 (CMS, Conversational 
Monitor System) 。1999 年 ， VMware 在 X86 平 台 上 推出 了 可 以 流畅 运行 的 商业 虚拟 化 软件 ， 从 此 ， 虚 拟 化 技术 由 大 型 机 领域 进入 了 PC 服务 器 的 世界 。 


纵 观 虚拟 化 技术 的 发 展 ， 虚 拟 化 技术 的 初衷 就 是 为 了 实现 更 高 的 设备 利用 率 ， 使 用 户 能 够 尽 可 能 多 地 利用 系统 资源 ， 这 样 就 能 够 在 单个 服务 器 上 虚拟 多 个 系统 ， 然 后 以 少数 几 台 计算 机 来 完成 所 有 的 工 
作 ， 显 然 可 以 节省 耗 电 、 空 间 、 冷 却 和 管理 的 开支 ， 此 外 ， 考 虑 到 确定 服务 器 利用 状况 的 困难 ， 虚 拟 化 技术 需要 支持 动态 迁移 (Live Migration) ， 因 为 动态 迁移 允许 将 操作 系统 迁移 到 另 一 台 全 新 的 服务 
器 上 ， 从 而 减少 当前 主机 的 负载 。 展 望 虚拟 化 技术 的 未 来 ， 很 可 能 将 整个 数据 中 心 全 面 虚拟 化 ， 使 用 户 能 够 获得 一 个 随 需 应 变 的 云 数据 平 台 。 


4.4.1 Citrix Xenserver 概 述 


Citrix Xenserver 是 思 杰 基于 Linux 的 虚拟 化 服务 器 。 它 是 一 种 全 面 的 、 易 于 管理 的 服务 器 虚拟 化 平台 ， 基 于 强大 的 Xen Hypervisor 程 序 之 上 。Xen 技 术 被 广泛 认为 是 业界 最 快速 、 最 安全 的 虚拟 化 软 
件 ， 而 Xenserver 则 是 为 了 高 效 地 管理 Windows 和 Linux 虚 拟 服 务 器 而 设计 的 ， 可 提供 经 济 高 效 的 服务 器 整合 ， 并 能 保证 业务 的 连续 性 。 


XenServer 可 提供 在 云 计 算 环境 中 经 过 验证 的 企业 级 虚拟 化 平台 ， 可 提供 创建 和 管理 虚拟 基础 架构 所 需 的 所 有 功能 ， 深 得 很 多 要 求 苛刻 的 企业 的 信赖 ， 被 广泛 用 来 运行 最 关键 的 应 用 ， 而 且 被 最 大 规模 
的 云 计算 环境 和 xSP 所 采用 。 


XenServer 分 为 免费 版 和 Premium 版 ， 它 们 各 自 的 特征 如 下 : 

` 免费 版 XenServet 配 备 有 64 位 系统 管理 程序 和 集中 管理 、 实 时 迁移 及 转换 工具 ， 可 创建 一 个 虚拟 化 平台 来 最 大 限度 地 提高 虚拟 机 的 密度 和 性 能 。 

: Premium 版 XenServer 对 平台 进行 了 更 深层 的 扩展 ， 可 帮助 任何 规模 的 企业 实现 管理 流程 的 集成 和 自动 化 ， 是 一 种 先进 的 虚拟 数据 中 心 解决 方案 。 
Xenserver 可 整合 服务 器 工作 负载 ， 进 而 节约 电源 、 冷 却 和 管理 成 本 ， 能 更 有 效 地 适应 不 断 变 化 的 IT 环境 ， 优 化 利用 现 有 的 硬件 设备 并 提高 IT 的 可 靠 性 ， 主 要 拥有 以 下 优势 : 


. 将 IT 成 本 降低 50% 甚 至 更 多 。 虽 然 服务 器 整合 通常 是 实施 服务 器 庶 拟 化 的 主要 驱动 因素 ， 但 企业 可 以 获得 更 多 的 优势 ， 而 不 仅仅 只 是 服务 器 总 数量 的 减少 。XenServer 唐 拟 化 管理 工具 可 以 将 服务 器 的 
整合 


要 求 降低 10 倍 。 数 据 中 心 内 的 服务 器 可 以 降低 功 耗 和 管理 成 本 ， 同 时 还 可 以 打造 更 绿色 环保 的 IT 环境 。 


. 提高 I 灵活 性 。 虚 拟 化 使 数据 中 心 能 够 灵活 地 适应 不 断 变化 的 I 本 要 求 。 例 如 ，XenServer 可 以 创建 出 能 够 无 颖 集成 现 有 存储 环境 的 虚拟 基础 架构 。 这 样 就 可 以 缩短 IT 部 门 满足 用 户 需 求 所 需 的 时 间 。 





. 确保 服务 器 性 能 。XenServer 可 以 优化 服务 器 工作 负载 的 位 置 ， 提 高 性 能 和 利用 率 ， 同 时 改进 资源 池内 的 服务 器 准备 情况 。 这 样 便 可 确保 始终 能 够 达到 应 用 的 要 求 和 预期 的 性 能 标准 ， 帮 助 企 业 加 快 向 
生产 环境 中 交付 新 应 用 的 速度 。 


` 最 大 限度 地 减少 服务 器 宕 机 。XenServetr 可 以 有 效 地 减少 计划 内 服务 器 宕 机 ， 减 小 故障 的 影响 ， 预 防 灾难 并 搭建 始终 可 用 的 虚拟 基础 架构 。 服 务 器 和 应 用 的 升级 可 以 在 正常 的 工作 时 间 内 完成 。 这 样 就 
可 以 减 小 对 用 户 生产 率 的 影响 ， 节 约 成 本 ， 使 IT 人 员 在 晚上 和 周末 都 能 正常 休息 。 


44.2 Citrix Xenserver 部 署 


Citrix Xenserver 与 传统 虚拟 机 类 软件 不 同 ， 它 无 需 底层 原生 操作 系统 的 支持 ， 也 就 是 说 XenServer 本 身 就 具备 了 操作 系统 的 功能 ， 是 能 直接 安装 在 服务 器 上 引导 启动 并 运行 的 ， 其 稳定 性 较 Hyper-V 
高 ， 对 Windows 2008 R2 及 Linux Server 提 供 了 良好 的 支持 ， 此 外 ，Citrix 还 提供 了 XenCenter 工 具 ， 可 通过 图 形 化 的 控制 界面 ， 直 观 地 管理 和 监控 XenServer 服 务 器 的 工作 。 例 如 : 将 一 台 性 能 强劲 的 服务 
器 划分 成 多 台 服 务 器 ， 让 这 些 服务 器 同时 运行 以 提供 各 种 应 用 服务 ， 节 省 硬件 投资 ， 也 方便 管理 。 假 设 公司 只 有 一 台 Web 服 务 器 ， 因 为 公司 业务 发 展 ， 现 在 需要 增加 邮件 服务 、BBS 客 户 服 务 ， 实 际 上 无 须 
购买 三 台 物 理 服务 器 来 分 别 实现 上 述 功 能 ， 而 只 须 使 用 XenServer 在 一 台 物 理 服务 器 上 创建 三 台 虚 拟 的 服务 器 ， 运 行 各 自 的 操作 系统 和 应 用 服务 ， 某 台 虚 拟 服务 器 的 宕 机 也 不 会 影响 到 其 他 虚拟 服务 器 。 


XenServer 的 部 署 很 简单 ， 安 装 界面 人 性 化 且 有 详细 的 提示 ， 前 提 是 : 安装 XenServer 的 PC 服务 器 没有 安装 任何 操作 系统 ， 且 拥有 至 少 一 块 网 卡 。 下 载 XenServer 的 安装 1SO 文 件 ， 刻 录 成 光盘 插入 服务 
器 的 光驱 后 ， 启 动 服务 器 即 可 安装 。 


@ == XenServer 官 网 地 址 为 : http:/ /www.cittix.com/products/xensetver/ 
XenServerg 下 载 地 址 为 : http://downloadns.citrix.com.edgesuite.net/7281/XenServer-6.2.0-install-cd.iso 


XenServer 官 方 安装 文档 可 以 从 如 下 网 址 下 载 : http://www.cittix.com/content/dam/cittix/en_us/documents/products-solutions/citrix-xenserver-quick-installation-and-licensing-guide.pdf 


443 ”基于 XenCenter 的 虚拟 服务 器 管理 


XenServer 可 通过 客户 机 安装 管理 工具 XenCenter 进 行 管理 。XenCenter 采 用 基于 图 形 用 户 界面 的 管理 控制 台 ， 该 控制 台 可 安装 在 任何 Windows PC 或 服务 器 上 。XenServer 安 装 完毕 后 ， 直 接 使 用 浏览 
器 访问 XenServer 的 IP 地 址 ， 下 载 XenCenter 并 安装 。 也 可 在 XenServer 的 安装 光盘 或 1SO 文 件 内 找到 XenCenter 的 安装 程序 ， 双 击 执行 文件 XenCenter.msi 后 ， 按 提示 一 步 步 安装 即 可 ， 如 图 4-3 和 图 4-4 所 
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图 4-3 XenCentet 安 装 包 





Welcome to the Citrix XenCenter Setup 
Wizard 


The Setup Wizard allows you to change the way Citrix 
XenCenter features are installed on your computer or to 
remove it from your computer. Click Next to continue or 
Cancel to exit the Setup Wizard. 





图 4-4 XenCenter 安 装 程序 


安装 完 XenCenter 后 启动 ， 其 界面 如 图 4-5 所 示 。 


在 XenCenter 处 点 击 鼠 标 右 键 ， 选 择 Add 或 点 击 上 方 工 具 条 中 的 Add New Server 按 钮 增加 一 台 XenServer 服 务 器 ， 输 入 服务 器 IP 和 root 账 户 密码 。 如 图 4-6 所 示 。 
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LEARN 
about using 
XenCenter 


UPGRADE TRY 
XenServer Desktop 
Virtualization 


Community Support Partners 


= Network with other XenServer users 
= Visit the Citrix Knowledge Center 


= Learn more about partner offerings 





图 4-5 XenCentet 界 面 


Enter the host name or IP address of the server you want to add 
and your user login credentials for that server. 


Server. 192.163.1.100 


User login credentials 


Username: root 





ss.....| 





图 4-6 ”增加 一 台 XenSetvet 服 务 器 


@ == 一 台 XenSetvet 服 务 器 即 一 台 物 理 服务 器 ， 而 不 是 指 庶 拟 服务 器 ，XenCentet 可 同时 管理 多 台 XenSetvet 服 务 器 及 运行 在 XenSetvet 服 务 器 上 的 虚拟 服务 器 


当 XenCenter 成 功 连接 服务 器 后 ， 可 看 到 服务 器 的 信息 ， 如 图 4-7 所 示 ， 在 此 XenServer 服 务 器 上 一 共 建 立 了 三 台 虚 拟 服务 器 ， 服 务 器 前 面 的 小 图 标 表 示 服 务 器 当前 的 状态 ， 其 中 ddb-template 服 务 器 
正在 运行 中 ， 另 外 两 台 服 务 器 处 于 关机 状态 。 


File View Pool Server VM Storage Templates Tools Window Help 


| Ge 
]| 


ddb-temrlate 


pp-template 
@ў) DVD drives 


P Local storage 
= Removable storage 


BIOS strings copied: 
Virtualization state: Unknown 
Time since startup: Ü minutes 


UUID: 33f62fba-d1b2-36ce-621e-c6lcd2dfe7da 

















. Boot Options 





图 4-7 服务 器 的 信息 


选择 某 台 虚拟 服务 器 ， 点 击 鼠 标 右键 ， 将 出 现 管理 菜单 ， 可 对 虚拟 服务 器 进行 管理 ， 比 如 重启 、 关 机 等 ， 如 图 4-8、 图 4-9 所 示 。 


File Мем Pool Server VM Storage Templates Tools Window Нер 


Q i - Ө owad ~ | 局 , Add New Server | EF New Poo! È New Storage. TIBI] New VM | Ө >= Ф Reboot 


—— 


e AenLenter 
Ea xenserver-myhaspl 


hadoop-template 


Take a Snapshot... 
Convert to Template... 


Assign to vApp 





Delete VM... 








ES Properties 





63771693-265c-7Tfab5-c013-b964bd2e2783 














Boot Options 





图 4-8 ”对 虚拟 服务 器 进行 启动 、 找 贝 、 创 建 快 照 等 操作 


| File View Pool Sewer VM Storage Templates Tools Window Нер 
Q Back - Ө Foward + | В, Add New Serer | Ё New Pool È New Storage. TBI] New VM | 


Views: 





eo AenLenter 
Ы LO xenserver-myhas 


Force Shutdown 
Force Reboot 


Take a Snapshot... 
Assign to VApp x ddb-template 


Install XenServer Tools... 





Properties 

. Folder: 
Operating System: 
BIOS strings copied: 


Virtualization state: AXenServer tools not installed 





. Time since startup: 13 minutes 


























JUID: 33f62fba-dl1b2-36ce-6 
图 4-9 ”对 虚拟 服务 器 进行 重启 、 关 机 等 操作 


选择 某 台 虚拟 服务 器 后 ， 点 击 Console 选 项 卡 ， 可 查看 当前 虚拟 服务 器 的 运行 情况 ， 如 图 4-10 所 示 。 


là) ddb-template on 'xenserver-myhaspl' Logged in as; L 





DVD Drive 











entüS Linux 7 (Core) 
Kernel 3.10.0-123.8.1.е17?.х86 64 оп an х86 64 


lIbogon login: 


,entli5 Linux ? (Core) 
Kernel 3.1H.H-123.8.1.e17.x86 64 on an x86 64 


bogon login: 








图 4-10 虚拟 服务 器 的 运行 情况 


虚拟 服务 器 的 创建 很 简单 ， 只 须 点 击 上 方 工具 条 的 New VM 按钮 即 可 ， 如 图 4-11 至 图 4-19 所 示 。 创 建 完 虚拟 服务 器 后 ， 将 操作 系统 的 安装 光盘 放 入 XenServer 服 务 器 的 光驱 ， 即 可 继续 在 该 虚拟 服务 器 
上 安装 操作 系统 。 


idi Select a VM template 


Template 


Name Name Category Template details 

Installation Medi i 

TT “Q Ubuntu Maverick Meerkat 10.10 (64-bit) (exp... Ubuntu If the operating system you plan 
| to use is not listed, you may be 

Q Ubuntu Precise Pangolin 12.04 (32-bit) Ubuntu able to install it by selecting this 


9 Ubuntu Precise Pangolin 12.04 (64-bit) Ubuntu template. We recommend that 
Storage T E u only advanced users attempt to 
ag F) Citrix XenApp on Windows Server 2003 (82-b... Citrix opu ilr and ond hos 


Home Server 


CPU & Memory 


Networking Ё) Citrix XenApp on Windows Server 2003 (64-b... Citrix note that our products have been 
MS | tested running only the 
Finish Э Citrix XenApp on Windows Server 2008 (32-b... Citrix supported distributions and 
| E" š i "- specific versions covered by the 
x enApp o | 2008 (64-b... | 
| Citrix XenApp on Windows Server 2008 (64-b... Citrix stud cupdied temples. 
ыў Citrix XenApp on Windows Server 2008 R2 (6... Citrix 
[s] Other install media Misc 
[El] Xen API SDK Misc 


Copy host BIOS strings to VM 





图 4-11 选择 虚拟 机 模板 ， 可 不 选择 已 有 模板 


ia Name the new virtual machine 


Enter a name that will help you to identify the virtual machine later. This could be a name that describes its 


N software and hardware such as RHEL DHCP Server, Win2K3 XenApp Server or Exchange 2007 Client Access 
mri Server. This name will also be displayed in XenCenter's Resources pane and can be changed later. 


Installation Media 
You can also add a more detailed description of the VM, if you wish. 


Home Server 

CPU & Memory Name: емей | 
Storage Descriptiom ° L L Ж C í í у 
Networking 

Finish 


















































图 4-12 ”虚拟 服务 器 命名 


ia Locate the operating system installation media 


Select the installation method for the operating system software you want to install on the new VM. 


Installation Media 


(& Install from ISO library or DVD drive: 
Home Server 


CPU & Memory 
Storage О Boot from network 





DVD drive 0 on xenserver-myhaspl 


Networking 
Finish 




















94-13 ”选择 系统 安装 光盘 的 位 置 


Template When you nominate a home server for a virtual machine, the virtual machine will always be started up on 

Name that server if it is available. If this is not possible, then an alternate server within the same pool will be 
selected automatically. 

Installation Media 


© Don't assign this VM a home server. The VM will be started on any server with the necessary resources. 


Home Server 
(Shared storage required) 


(& Place the VM on this server: 


Ға xenserver-myhaspl 13550 MB available (16335 MB total) 








图 4-14 ”选择 虚拟 服务 器 空间 占有 的 物理 硬盘 


ia Allocate processor and memory resources 


Template Specify the number of virtual CPUs and the amount of memory that will be initially allocated to the new 
T" virtual machine. 


Installation Media Number of vCPUs: - 
Ногпе Server Мегпогу: 2048 = МВ 
| cPU&Memoy 
| Storage 
Networking 


Finish 











图 4-15 ”选择 虚拟 服务 器 需要 使 用 的 CPU 和 内 存 数 量 









ial Configure storage for the new VM 









The virtual machine template you selected earlier provides the virtual disks listed below. You can change the 
properties of these virtual disks, and add more disks if required. 


Template 
Name 
Installation Media 









Alternatively, you can select the second option below to create a diskless VM that can be booted from the 
network and does not use any virtual disks. 











Home Server 


CPU & Memory 





When you have finished configuring disks for the new virtual machine, click Next to continue to the next 
step. 


Use these virtual disks: 
Location 


Оты ы O 


Enter a name, description and size for your virtual disk. The size of your disk and the home server setting 
of any VM the disk belongs to will affect which storage locations are available. 






Storage 






Networking 
Finish 
















Name: New virtual disk 







Description: 


а >| 


Kg Local storage on xenserver-myhaspl 897.55 GB free of 909.01 GB 





图 4-16 ”为 虚拟 服务 器 分 配 硬 盘 空 间 


ia Configure storage for the new VM 


Template The virtual machine template you selected earlier provides the virtual disks listed below. You can change the 


Na properties of these virtual disks, and add more disks if required. 
me 


Installation Media Alternatively, you can select the second option below to create a diskless VM that can be booted from the 
network and does not use any virtual disks. 
Home Server 


CPU & Memory When you have finished configuring disks for the new virtual machine, click Next to continue to the next 


step. 
Storage 


(@) Use these virtual disks: 
Location Size Shared 


=» е 
Local storage on xenserver-myhaspl 20 6GB False 


[ ] Use storage-level fast disk clone 


(С) Create a diskless VM that boots from the network 








图 4-17 硬盘 空间 分 配 完毕 ， 可 继续 分 配 


ig Configure networking on the new VM 


Template The virtual machine template you have selected provides the virtual network interfaces listed below. You 
Name can configure or delete the default virtual network interfaces here, and add more if required. 


Installation Media Virtual network interfaces on centos7 


Home Server MAC Network | 
CPU ё Memory £h «autogenerated MAC» Network 0 


Storage i «autogenerated MAC» Network 1 


Networking |. sopes! lies 
Finish 


(1) Using a Default template, you can configure up to 4 virtual network interfaces during 
VM creation. To configure more than 4, create a Custom template or add extra virtual 
network interfaces from the Network tab after creating the new VM. 








图 4-18 选择 虚拟 服务 器 使 用 的 物理 网 卡 


m eo Y enl ent ar 
= xenserver-myhaspl 
centos/ 

ddb-template 
[Ó hadoop-template 
[ó pp-template 


DVD drives 
Local storage 
F Removable storage 





94-19 ”创建 成 功 后 的 虚拟 服务 器 centos7 


45 ” Linux 环境 下 的 NumPy 安 装 


NumPy (Numeric Python) 是 用 Python 实 现 的 一 个 科学 计算 包 ， 提 供 了 许多 高 级 的 数值 编程 工具 ， 如 : 矩 阵 数据 类 型 、 矢 量 处 理 ， 以 及 精密 的 运算 库 。 下 面 以 CentOs 为 例 ， 讲 解 NumpPy 在 Linux 下 
的 安装 ， 安 装 过 程 如 下 所 示 。 


1) 下 载 NumPy， 网 址 为 : http://www.scipy.org/scipylib/download.html, 


2) 系统 更 新 : 


[myhasp1@1ocalhost ~]$ su 


密码 : 








[rootülocalhost myhaspl]# yum install update 


3) 安装 相关 工具 : 


root(localhos! 
root(localhos! 
root(localhos! 
root(localhos! 


пуһаѕр1]# yum install wget 
myhaspl]f yum install unzip 
# yum 
9 























myhaspl] install gcc 
numpy-1.9.0]4 yum install python-devel 























Ct ct ct c 





4) 下 载 NumPy 源 码 并 解压 : 


[root@localhost туһаѕр1]# wget 
http://jaist.dl.sourceforge.net/project/numpy/NumPy/1.9.0/numpy-1.9.0.zip 








5) 安装 NumpPy: 


t шуһазр1]# unzip numpy-1.9.0.zip 
t туһаѕр1]# cd numpy-1.9.0 
t numpy-1.9.0]4 python setup.py install 
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[rootülocalhost питру-1.9.0]# reboot 


7) 测试 安装 是 否 成 功 ， 如 果 能 导入 NumPy 库 ， 则 表示 安装 成 功 : 


[myhasplGlocalhost ~]$ python 

Python 2.7.5 (default, Jun 17 2014, 18:11:42) 

[GCC 4.8.2 20140120 (Red Hat 4.8.2-16)] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
>>> import numpy as np 

>>> 





























46 ”Linux 环 境 下 的 R 运 行 环境 


R 语 言 是 一 套 完整 的 数据 处 理 、 计 算 和 制图 软件 系统 ， 主 要 用 于 统计 分 析 。 以 CentOS 为 例 ， 可 依次 输入 以 下 命令 ,安装 R 运 行 环境 : 



































# yum install gcc-gfortran 

f yum install gcc gcc-c++ 

# yum install readline-devel 

# yum install libXt-devel 

# wget http://mirror.bjtu.edu.cn/cran/src/base/R-3/R-3.1.1.tar.gz 
# tar zxvf R-3.1.1.tar.gz 

#са R-3.1.1 

f./configure 

#таке 

#make install 





fmake check 
#ln -s /home/myhaspl/R-3.1.1/bin/R /usr/local/bin/R 
SR 


4.7 ”PyPy 编 译 器 


4.7.1 PyPy 概 述 


CPython 是 用 C 语 言 实现 的 Python 解 释 器 ， 也 是 官方 的 并 且 是 最 广泛 使 用 的 Python 解 释 器 。 但 它 并 不 是 唯一 的 选择 ， 它 使 用 字 节 码 的 解释 器 ， 任 何 的 程序 源 代码 在 执行 之 前 都 要 先 编译 成 字 节 码 ， 这 样 
必然 会 影响 到 Python 程 序 的 执行 效率 。 此 外 ，CPython 还 存在 一 个 问题 ， 在 多 处 理 器 的 计算 机 上 使 用 CPython 要 受 GIL (Global Interpreter Lock) 的 约束 ，GIL 使 得 CPython 不 能 进行 并 发 编程 ， 要 做 到 
并 发 编程 ， 就 必须 为 每 一 个 线程 运行 一 个 解释 器 ， 但 是 它们 之 间 的 通信 就 会 非常 困难 。 


Python 语言 的 test suite。 更 为 重要 的 是 PyPy 实 现 了 动态 编译 ， 提 供 了 川 编译 器 和 沙 盒 功 能 ,运行 速 度 比 CPython 要 快 很 多 ， 还 可 以 安全 地 运行 一 些 不 被 信任 的 代码 ， 此 外 ，PyPy 还 有 支持 微 线程 的 版 本 。 
目前 PyPy 的 最 新 版 本 主要 拥有 以 下 特征 : 


. 更 快 的 速度 。 在 JIT (Just-in-Time) 编译 器 的 帮助 下 ，Python 程 序 能 在 PyPy 下 跑 得 更 快 。 


更 高 的 内 存 使 用 效率 。 相 对 CPython 来 说 ，PyPy 能 更 有 效 地 利用 内 存 ， 尤 其 是 几 百 兆 或 更 多 的 内 存 。 

- 兼容 性 。PyPy 对 现 有 的 Python 程序 有 更 好 的 兼容 性 ， 它 不 仅 支 持 c< 捍 ， 还 能 运行 流行 的 Python 库 ， 比 如 Twisted、Django 等 。 
. 沙 金 。PyPy 可 以 安全 地 运行 一 些 不 被 信任 的 代码 。 

.Stackless。PyPy 原 生 支 持 Stackless 模 式 ， 提 供 了 真正 的 多 线程 并 发 。 


Qi 关于 PyPy 的 更 多 资料 可 以 在 官网 http://www.pypy.org/ 中 查看 。 


4.7.2 ”PyPy 安 装 与 配置 


下 面 以 64 位 centos7 (最 小 化 安装 ) 为 例 ， 讲 解 如 何 安 装 和 配置 PyPy。 


首先 ， 依 次 输入 以 下 命令 ， 下 载 并 编译 PyPy: 













































































# yum install gcc 

# yum install wget 

# wget https://bitbucket.org/pypy/pypy/downloads/pypy-2.3.1-src.tar.bz2 
# tar jxvf pypy-2.3.1-src.tar.bz2 

# yum install libffi-devel 

# yum install expat-devel 

# yum install ncurses-devel 

# yum install bzip2-devel 

# yum install openssl-devel 

[rootQ(localhost myhaspl]# cd pypy-2.3.1-src/pypy/goal 

* python http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../http://www.hzcourse.com/resource/readBook?path-/openresource 











然后 ， 安 装 适 用 于 PyPy 的 numpy 包 : 


# git clone https://bitbucket.org/pypy/numpy.git 
# cd numpy 
# pypy setup.py install 


最 后 ， 为 方便 PyPy 的 调用 ， 可 以 使 用 In 命令 建立 软 链接 ，In 是 Linux 中 一 个 非常 重要 的 命令 ， 它 的 功能 是 为 某 一 个 文件 在 另外 一 个 位 置 建立 一 个 不 同 的 链接 ， 具 体 用 法 如 下 : 


ln -s 源 文件 目标 文件 


4.7.3 ”PyPy 性 能 
PyPy 执 行 Python 程 序 的 速度 比 CPython 要 快 很 多 。 下 面 以 除法 与 累加 混合 计算 为 例 ， 验 证 PyPy 的 效率 。 测 试用 Python 程 序 如 下 : 


import time 
start=time.clock () 
sum=0 
i=1.0 
while (i<10000000): 
sumt-i/2.22 
ї=ї+1 
print "sum:$f"$sum 
end = time.clock() 
print "seconds:$f"$( end- start) 














分 别 用 CPython 和 PyPy 运 行 上 面 的 程序 ， 结 果 如 下 : 


$ python pythontest.py 
sum:22522520270270.273438 
seconds:4.090000 
$ ./pypy pythontest.py 
sum:22522520270270.273438 
seconds:0.256000 








从 上 面 的 程序 运行 效果 来 看 ，PyPy 计 算 只 用 了 0.256000 秒 ， 而 CPython 则 人 花 了 4.090000 秒 ，PyPy 对 运行 效率 的 提升 是 数量 级 的 ， 也 是 显而易见 的 。 


4.74 ”PyPy 实 践 之 Lempel-Ziv 压 缩 


Lempel-Ziv 算 法 采用 动态 无 损 数据 压缩 算法 对 字符 串 进 行动 态 编码 和 和 解码， 以 达到 压缩 和 解压 文本 的 目的 。Lempel-Ziv 算 法 基于 在 正文 流 中 很 可 能 会 出 现 词汇 和 短语 重复 的 情况 而 开发 的 ， 当 出 现 一 个 
重复 时 ， 将 重复 的 序列 用 一 个 短 的 编码 来 代替 ， 压 缩 程序 扫描 这 样 的 重复 ， 同 时 生成 编码 来 代 蔡 重复 序列 ， 随 着 时 间 的 推移 ， 编 码 可 以 重用 来 捕获 新 的 序列 ， 此 外 ，Lempel-Ziv 算 法 设计 成 解压 程序 能 够 以 
编码 和 原始 数据 序列 推导 出 当前 的 映射 。 


Lempel-Ziv 算 法 的 关键 在 于 查找 重复 的 序列 ， 当 碰 到 一 个 重复 时 ， 算 法 继续 扫描 直到 该 重复 序列 终止 为 止 。 以 下 面 这 段 文 本 为 例 对 Lempel-Ziv 编 码 进行 讲解 ， 假 设 需要 压缩 的 文本 如 下 : 
abaaaabaabaaabbbbbbbabbbbbbbabbbbbaababaababa... 

应 用 Lempel-Ziv 算 法 逐步 对 上 述 文本 进行 编码 : 

1) 建立 一 个 码 表 空 字典 DICT。 

2) 读 入 第 1 个 字符 “a”，DICT 中 无 “a” 字符， 且 为 空 ， 因 此 将 “a” 增 加 到 DICT 中 ， 索 引 为 1， 编 码 为 “0a” 。 最 终 编码 结果 为 : "Оа" . 

3) 读 入 第 2 个 字符 “b”，DICT 中 无 “b” 字符 ， 因 此 将 “b” 增加 到 DICT 中 ， 索 引 为 2， 编 码 为 “0b”。 最 终 编 码 结果 为 : “0a0b”。 


Д) 读 入 第 3 个 字符 “a”，DICT 中 有 “a” 字符 且 索 引 为 1， 此 时 ， 将 紧 跟 其 后 的 第 4 个 字符 “a” 与 第 3 个 字符 “a” 合 并 成 一 个 码 段 “aa” ， 编 码 为 “1a”， 然 后 将 “aa” 增 加 到 DICT 中 ， 索 引 为 3。 最 
终 编码 结果 为 : “0a0b1a”。 


5) 第 4 步 已 经 处 理 过 第 4 个 字符 了 ， 因 此 从 第 5 个 字符 开始 ， 读 入 第 5 个 字符 “a” 和 第 6 个 字符 “a”，DICT 中 有 “aa” 字符 且 索 引 为 3， 此 时 ， 将 紧 跟 其 后 的 第 7 个 字符 “b” 与 第 ?、6 个 字符 组 成 的 
串 “aa” 合 并 成 一 个 码 段 “aab” ， 编 码 为 “3b”， 然 后 将 “aab” 增 加 到 DICT 中 ， 索 引 为 4。 最 终 编 码 结果 为 : “0a0b1a3b”。 


接 下 来 ， 按 类 似 的 方法 继续 处 理 ， 直 到 读 取 完 毕 所 有 需要 压缩 的 字符 才 结束 ， 最 终 形 成 表 4-1 所 示 的 编码 结果 。 
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Lempel-Ziv 算 法 编码 





下 面 用 Python 来 实现 Lempel-Ziv 压 缩 算 法 ， 程 序 如 下 所 示 。 








4 -*- coding: utf-8 -*- 
flempel-zivjtiX 
#code:myhaspl@myhaspl .com 
#4-1 .py 

# 待 压缩 字符 囊 








my str-"""Ubuntu 14.04 LTS includes a wealth of smart 














# 码 表 
codeword dictionary={} 
HFE а 
str 1еп=1еп (пу str) 
# 码 字 最 大 长 度 
dict maxlen-1 
# 将 解析 文本 段 的 位 置 (下 一 次 解析 文本 的 起 点 ) 
now index=0 
# 码 表 的 最 大 索引 
max index=0 
# 
compressed str-"" 
while (now index«cstr len): 
# 向 后 移动 步 长 
mystep=0 
# 当 前 匹配 长 度 
now len=dict maxlen 
if now len>str len-now index: 
now len= str len- now index 
# 查 找到 的 码 表 索引 ，0 表 示 没 有 找到 
cw addr-0 
while (now len»0): 











cw index-codeword dictionary.get(my str[now index:now іпдӢех+пои len]) 





if cw index!-None: 
# 找 到 码 字 
cw addr-cw index 
mystep-now len 
break 

now len--1 

f cw addr--0: 

# 没 有 找到 码 字 ,增加 新 的 码 字 

max іпаех+=1 

mystep=1 





F 


codeword dictionary[my str[now index:now index4mystep]]-max index 





print "don't find the Code word,add Code word:$s index:$d"$(my str[now index:now index*mystep],max index) 


else: 
# 找 到 码 字 ,增加 新 的 码 字 
max index+=1 





codeword dictionary[my str[now index:now іпдӢех+тузёер+1] | =тах index 








if пуѕіер+1>аісі maxlen: 
dict maxlen=mystep+1 
print "find the Code word:$s 

+ 378 28 5 69 2 SR 

cwdindex-'$d'$cw addr 

if cw addr--0: 

cwlater-my str[now index:now index-*l] 

now іпдех+=1 i i 

else: 

now index+=mystep 

cwlater-my str[now index:now index-*l] 

now іпдех+=1 с Е 

cw-cwdindextcwlater 

compressed str+=cw 


























print деве === === Nn" 
print my str 

print WÑ T) % % % % %  % % хк ккк КЖК ККК КЖК ККК Кк К Кк К ek N n" 
print compressed str 

print "NVn-==-==============—— Nn" 


现在 用 以 上 程序 将 下 面 的 文本 进行 压缩 : 


add Code word:$s index: 


Filters to make it faster and easier to 





find the content you need, whether it' 





S stored on your computer or on the web.Typ 


%а"5 (ту str[now index:now indextnow len],my str[now index:now indexdmystep*1],max index) 














Ubuntu 14.04 LTS includes a wealth of 





smart 





压缩 结果 为 : 





filters to make it faster and easier 





to find the content you need, whether it' 





S Stored on your computer or on the web.Type any quer 





0UObOuOnOt3 01040.008 OLOTOSO 0i4c013d0e0s15a15w20a18tO0h1500f15s0m0a0r5 28125е3251 











23h20t26e461501 21t38r20827n15y60r15c38m0p3t51 





下 面 使 用 PyPy 运 行程 序 4-1.py， 将 程序 依次 读 入 文本 ， 扩 充 码 表 字 典 ， 


SPYPY 4-1.ру 














don't find the Code word,add Code word:U index:1 
don't find the Code word,add Code word:b index:2 
don't find the Code word,add Code word:u index:3 
don't find the Code word,add Code word:n index:4 
don't find the Code word,add Code word:t :5 


























find the Code word:u add Code word:u 


don't find the Code мога, ада Code word:1 index:7 
don't find the Code word,add Code word:4 index:8 
don find the Code word,add Code word:. index:9--- 








1375174t186r41m38s33u21e28u116t98y60 38v82t16m20. 





程序 4-1.py 在 压缩 时 生成 了 码 表 ， 这 就 带 来 了 一 个 问题 : 码 表 字典 文件 会 很 大 ， 而 每 个 压缩 文件 都 要 将 码 表 附带 上 ， 这 样 就 无 法 达到 压缩 文件 尺寸 的 作用 。 实 际 上 Lempel-Zi 
要 存放 码 表 ， 可 在 解压 时 自动 生成 码 表 ， 此 外 ， 同 时 还 可 根据 被 压缩 文件 的 大 小 确定 索引 是 整 型 、 
实现 对 文本 文件 进行 


Lempel-Ziv 压 缩 与 解压 缩 ， 程 序 如 下 所 示 : 





# -*- coding: utf-8 -*- 
#1Lempe1-ziv 压 缩 与 解压 缩 文 件 
#code:myhaspl@myhaspl .com 
#4-2 .py 

import struct 

import sys 
txtfilename-sys.argv[1] 
compressfn-sys.argv [2] 
myst L L= "WW 
print "\n 读 取 源 文件 ". decode ("ut£8") 
mytextfile- open (txtfilename,'r') 
try: 



































mystr=mytextfile.read( ) 


5t0ol5m31k20 16+] 


5f31s5e32 3] 





п0а15е4412013704314а37ћ41с38п45п33у38015п20е48, 











73 57 5h41w20b910y80e22n89 0q3e32y1l 





最 终 输出 压缩 结果 ， 如 下 : 


长 整 型 还 


514638 85е15р44һ1 


Еа = 


DEFT 





5h79e91d55e1 


， 这 样 就 可 动态 地 调整 在 压缩 文件 中 索引 所 点 有 的 空间 ， 保 证 了 压缩 率 





5S30a32t106c38p20s29e32v82w16118 48e45r30i4e64i0c26 122а459731111 








v 算 法 在 压缩 文件 中 并 不 需 
<。 下 面 用 Python 





finally: 
mytextfile.close() 
my str-mystr 
# 码 表 
codeword dictionary={} 
# 待 压缩 文本 长 度 
str 1еп=1еп (my str) 
# 码 字 最 大 长 度 
dict maxlen-1 
# 将 解析 文本 段 的 位 置 (下 一 次 解析 文本 的 起 点 ) 
now index=0 
# 码 表 的 最 大 索引 
max index=0 
# 压 缩 后 的 数据 
print "\n 生 成 压缩 数据 中 ".decode ("utf8") 
compresseddata-[] 
while (now index«cstr len): 
# 向 后 移动 步 长 
mystep=0 
# 当 前 匹配 长 度 
now len=dict maxlen 
if now len>str len-now index: 
now len=str len-now index 
# 查 找到 的 码 表 索 引 ，0 表 示 没 有 找到 
cw addr-0 
while (now len»0): 
cw index-codeword dictionary.get(my str[now index:now index+now len]) 
if cw index!-None: 
# 找 到 码 字 
cw addr-cw index 
mystep-now len 
break 
now len--1 
w addr--0: 
PRA REJA F, 增加 新 的 码 字 
max index-t-1 
mystep-1 
codeword dictionary[my str[now index:now index4mystep]]-max index 
print "don't find the Code word,add Code word:$s index:$d"$(my str[now index:now index*mystep],max index) 
else: 
# 找 到 码 字 ,增加 新 的 码 字 
if now indextmystept+l<str len: 
# 如 果 文 件 尾部 正好 是 字典 中 的 码 字 ， 后 面 再 无 内 容 时 ， 这 部 分 将 不 会 被 执行 
max іпдӢех+=1 
codeword dictionary[my str[now index:now indexemystep*1]]-max index 
if mysteptl»dict maxlen: Е 
dict тах1еп=туѕёер+1 
print "find the Code word:$s add Code кога: %ѕ index:$d"$(my str[now index:now index-now len],my str[now index:now іпдех+туѕіер+1],тах index) 
# 压 缩 后 的 结果 
cwdindex-cw addr 
if cwdindex--0: 
cwlater=my str[now index:now іпаех+1] 
now іпаех+=1 Е Е 
е1ѕе: 
now index+=mystep 
if now index»-str len: 
# 文 件 已 经 读 取 完 毕 ， 后 面 无 内 容 
cwlater-"" 
else: 
cwlater-my str[now index:now іпаех+1] 
now indext-l ` = m 
cw- (cwdindex,cwlater) 
compresseddata.append (cw) 
print "\n 生 成 压缩 数据 头 部 " . decode ("ut £8") 
# 生 成 数据 压缩 大 小 格式 , 65535 为 H 能 容纳 的 最 大 数据 





























rh 


Q 

































































if len(codeword дісііопагу) <=65535: 
FLAG ЕМТ='Н' 
FLAG LEN-'2' 
else 
FLAG FMT-'I' 
FLAG LEN-'4' 
# 压 缩 数 据 写 入 文件 


print "\n 将 压缩 数据 写 入 压缩 文件 中 " . decode ("utf8")， 
lzv file = open (compressfn, 'wb') 



















































































try: 
# 写 入 压缩 数据 的 头 部 信息 
# 压 缩 数 据 长 度 
lzv len=len (compresseddata) 
lzv file.write (struct.pack('I',lzv len)) 
# 数 据 解 码 大 小 格式 : 
lzv file.write(struct.pack('lsls',FLAG FMT,FLAG LEN)) 
# 写 入 压缩 数据 
for temp data in compresseddata: 
temp key,temp later-temp data 
temp wdata-struct.pack(FLAG FMT-'ls',temp key,temp later) 
lzv file.write (temp wdata) 
prine v." Е 
Ғіпа11у: 
12у file.close() 
# 解 压缩 数据 





print "\n 读 入 压缩 数据 中 ".decode ("utf8")， 
my compresseddata-[] 

my codeword dictionary-(] 

lzv file = open (compressfn, 'rb') 
























































try: 
# 读 入 压缩 数据 的 长 度 
lzv len,-struct.unpack("I",lzv file.read(4)) 
# 读 入 数据 解码 大 小 格式 
MY FLAG FMT,MY FLAG LEN-struct.unpack('1sls',lzv file.read(2)) 
# 读 入 压缩 数据 
tmp count=1 
while tmp count«-lzv len: 
# 读 入 压缩 数据 
temp data -lzv file.read(int(MY FLAG LEN)+1) 
temp key,temp later-struct.unpack(MY FLAG FMT-'ls',temp data) 
my compresseddata.append((temp key,temp later)) 
tmp count+=1 i Е 
print ".", 
print "Nnj JE A Z3 91" . decode ("utf8") 
Finally: 








lzv file.close( ) 
print "\n 解 压 中 ".decode ("utf8"), 
# 解 压缩 
uncompress str-'' 
# 解 码 后 的 数据 
uncompressdata-[] 
my maxindex-O0 
# 解 码 ， 同 时 重 构 码 表 
for (cwkey,cwlaster) in my compresseddata: 
f cwkey==0: 
my maxindex+=1 
my codeword dictionary[my maxindex]-cwlaster 
uncompressdata.append (cwlaster) 
else: 
my maxindex-t-1 
my codeword dictionary[my maxindex]-my codeword dictionary [cwkey]-*cwlaster 
uncompressdata.append (my codeword dictionary [cwkey]) 
f cwlaster!='N0': i Е 
uncompressdata.append (cwlaster) 
princ “a”; 
uncompress str-uncompress str.join(uncompressdata) 
uncompressstr-uncompress str 
print "\о Л 25 Ж 5 A 3 EP http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..Mn".decode ("utf8") 
uncompress file- open('uncompress.txt','w') 
try: 




















H- 





H- 


























uncompress file.write (uncompressstr) 

print "Nn 解 压 成 功 ， 已 解压 到 uncompress .txtl \n".decode ("utf8") 
finally: 
uncompress file.close() 














下 面 以 图 4-20 所 示 的 文本 为 例 进行 压缩 和 解压 缩 操作 。 


文件 [FJ ЖЕЕ) ДО) EEV) 帮助 (H) 


ЧЫК uU. 


f. Python ghi DINE. БУЕН ЕЛ НЕГЕ 它 经 
FEE s PAID AUTE 


i ur iim ICE ЗНАЕ 类 的 
YE) ies Поп 


ME thon, АФВ Н СА 8 27, aE T 296787 B НЕЕ, AR EP thon 





cT. ТАЈА АЕТ. ВА ман. mpg ШНЕЛЛ ERES PPS 


des. + (Guido van ЧҮШ 。19839 年 的 圣诞 太 | 
zu x Жалы LOS: 


] 4x ГРН IELA A Lem 

E AES, BENS NS 
1 ni Jg LL TEPSHERanPE PE m — 
WE, -可 县 届 一 些 1 is 

这 样 ， 


M ERE 第 一 个 实现 ME Each ie а, Р: pios ACER 


CESPS[TMadula-3 CE—3d E23 ЗД МЕЕ БШШ АПЕТ) 的 影响 。 HAAS 


| Unis shelli0C - I 





图 4-20 ”python.txt 内 容 


首先 ,调用 PyPy 运 行 4-2.py， 该 程序 先进 行 压缩 形成 压缩 文件 ， 表 打开 压缩 文件 解压 将 文件 还 原 为 uncompress.txt。 运 行 结果 如 下 : 














Book?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 








© PyPY 4-2.py python.txt python.12ZV http://www.hzcourse.com/resource/read 
find the Code word: C add Code word: CP index:9938 

index: 9939de word:ython add Code word:ython 

find the Code word: 

Е ааа Соде мога: 

^ h index:9940 

find the Code word:ttp add Code word:ttp: index:9941 

find the Code word:// add Code word://e index: У 


а 
а 

find the Code word:dit ааа Code мога: аііг index:99 

find the Code word:a. Коз у он бос TT ee 将 解压 结果 写 入 文件 中 解压 成 功 ， 已 解压 到 uncompress txt! 
































然后 ， 查 看 一 下 解压 缩 效果 ， 可 见解 压缩 成 功 ， 结 果 如 下 所 示 : 


$ cat uncompress.txt 


Python (英国 发 音 : «95»; 美国 发 音 : рабап) 是 一 种 面向 对 象 、 直 译 式 计算 机 编程 语言 ， 具 有 近 二 十 年 的 发 展 历史 ， 成 熟 且 稳定 。 它 包含 了 一 组 完善 而 且 容易 理解 的 标准 库 ， 能 够 轻松 完成 很 多 


常见 的 任务 。 它 的 语法 简洁 和 清晰 ， 尽 量 使 用 无 异 义 的 英语 单词 ， 与 其 他 大 多 数 程序 设计 语言 使 用 大 括号 不 一 样 ， 它 使 用 缩 进 来 定义 语句 块 。 
最 后 ， 运 行 |s 命 令 查 看 算法 压缩 效果 ， 结 果 如 下 : 


©. Те el cheese: 























-rw-rw-r-- 1 deep deep 5.0K Jul 1 20:55 5-2.py 
-rw-rw-r-- 1 deep deep 30K Jul 1 20:55 python.lzv 
-rw-rw-r-- 1 deep deep 36K Jul 1 20:57 python.txt 
-rw-rw-r-- 1 deep deep 36K Jul 1 20:55 uncompress.txt 





从 上 面 显示 的 结果 可 以 看 到 ， 未 压缩 前 为 36KB， 压 缩 后 为 30KB， 压 缩 效 果 不 太 明显 ，Lempel-Ziv 算 法 对 于 大 的 文件 压缩 效果 更 好 ， 以 sqlite 3.8.5 的 全 部 源码 为 例 ， 对 它 进行 压缩 ， 调 用 PyPy 再 次 运行 


4-2.py 程 序 : 





Š pypy 4-2.py sqlitesrc.txt sqlitesrc.lzv 

















程序 运行 完毕 后 ， 查 看 压缩 效果 ， 结 果 如 下 : 

S ls -]l -h due Sd ATO СС . 

-rw-rw-r-- 1 deep deep 3.2M Jul 1 21:18 sqlitesrc.lzv 

-rw-rw-r-- 1 deep deep 5.2M Jul 1 21:16 sqlitesrc.txt 

-rw-rw-r-- 1 deep deep 5.2M Jul 1 21:18 uncompress .txt 没 压缩 前 为 5.2M， 压 缩 后 为 3.2M， 压 缩 效 果 较 明显 。 

















48 人 小结 


目前 ， 机 器 学 习 主 要 依靠 算法 来 实现 ， 而 算法 依靠 程序 来 实现 ， 程 序 在 调试 完毕 后 ， 就 需要 投入 到 实际 运行 阶段 ， 当 人 们 创造 性 地 将 “生产 环境 ”一 词 拓展 到 软件 工程 领域 后 ， 软 件 运行 平台 的 定义 就 
变 得 严谨 、 可 靠 和 安全 ， 它 特 指 软件 调试 完毕 并 正式 启用 后 实际 运行 的 环境 。 软 件 生 产 环境 中 最 常用 的 是 Windows Server 和 LinuxX/UNIX 两 种 。 本 章 首先 分 别 介绍 了 这 两 种 生产 环境 下 的 基本 命令 、shell 肢 
本 及 各 自 的 特性 ， 然 后 重点 介绍 了 虚拟 化 平台 的 搭建 与 管理 ， 最 后 讲解 了 Linux 环 境 下 Vim 编 辑 器 的 使 用 及 相关 软件 工具 的 配置 。 值 得 一 提 的 是 ， 本 章 结尾 讲述 了 PyPy 编 译 器 ，PyPy 实 现 了 动态 编译 ， 提 供 
了 JIT 编 译 器 和 沙 盒 功 能 ， 运 行 速度 比 CPython 要 快 很 多 ， 还 可 以 安全 地 运行 一 些 不 被 信任 的 代码 ， 对 于 Python 程序 来 说 ， 是 一 个 很 不 错 的 运行 平台 。 


cH 
dk 
Ёш 


在 家 中 找 一 台 闲 置 不 用 的 PC， 将 硬盘 格式 化 ， 然 后 下 载 Citrix Xenserver 免 费 版 和 Windows Server 2008 R2 免 费 试 用 180 天 版 ， 将 本 章 内 容 亲 自 实践 一 次 ， 按 以 下 步骤 进行 操作 : 
(1) 安装 和 配置 好 Citrix Xenserver 与 XenCenter。 

(2) 建立 至 少 两 台 虚 拟 服务 器 ， 一 台 用 于 安装 Windows Server 2008 R2， 一 台 用 于 安装 Citrix Xenserver。 

(3) 在 其 中 一 台 虚 拟 服务 器 中 安装 CentOS 系 统 。 

(4) 在 CentOS 系 统 中 安装 好 R、PyPy、NumpPy 等 工具 软件 包 ， 安 装 完毕 后 ， 测 试 一 下 各 软件 包 是 否 能 正常 运行 相关 的 程序 。 

(5) 在 CentOS 系 统 中 编写 各 种 Linux 命 令 和 Shell 脚 本 进行 测试 和 学 习 。 

(6) 在 CentOS 系 统 中 打开 Vim 编 辑 器 ,编辑 以 下 文件 内 容 ， 并 存盘 为 R.txt。 


R is a language and environment for statistical computing and graphics.lt is a GNU project which is similar to the S language and environment which was developed at Bell 
Laboratories(formerly AT&T, now Lucent Technologies)by John Chambers and colleagues.R can be considered as a different implementation of S.There are some important 


differences, but much code written for S runs unaltered under R. 


R provides a wide variety of statistical(linear and nonlinear modelling, classical statistical tests, time-series 
analysis, classification, clustering, http://www.hzcourse.com/resource/readBook?path z/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...Jand graphical techniques, and 


is highly extensible.The S language is often the vehicle of choice for research in statistical methodology, and R provides an Open Source route to participation in that activity. 
(7) 在 另 一 台 虚 拟 服务 器 中 安装 Windows Server 2008 R2, 


(8) 在 Windows Server 2008 R2 中 运行 Windows PowerShell 肢 本， 并 配置 好 R、Pypy、Python、NumpPy 等 工具 软件 包 ， 并 测试 各 软件 包 是 否 能 正常 运行 相关 的 程序 。 


三 部 分 ”统计 分 析 实 战 篇 


在 终极 的 分 析 中 ， 一 切 知 识 都 是 历史 ; 在 抽象 的 意义 下 ， 一 切 科 学 都 是 数学 ; 在 理性 的 基础 上 ， 所 有 的 判断 都 是 统计 。 


— C.R} 


第 5 章 ”统计 分 析 基 础 


统计 学 用 于 研究 对 象 的 数量 性 、 总 体 性 、 变 异性 ， 具 体 说 来 ， 就 是 通过 各 种 统计 指标 和 指标 体系 来 反映 对 象 总 体 的 规模 、 水 平 、 速 度 、 比 例 、 效 益 、 差 异 和 趋势 等 。 海 量 数 据 分 析 需 要 一 个 科学 的 理论 
基础 ， 统 计 学 是 理论 基础 之 一 ， 统 计 分 析 方 法 也 是 主要 的 数据 分 析 方 法 。 


机 器 学 习 涉 及 许多 统计 分 析 理 论 。 机 器 学 习 应 用 的 统计 分 析 强 调 实际 应 用 效果 ， 检 测 损失 函数 即 描述 预测 与 实际 之 间 的 偏差 ;数据 分 析 领 域 也 以 统计 学 为 基础 ， 统 计 学 善于 对 数据 建立 模型 ， 并 对 模型 
做 出 假设 。 由 此 可 见 ， 无 论 是 在 机 器 学 习 方面 还 是 数据 分 析 领 域 ， 统 计 分 析 理 论 都 有 着 举足轻重 的 地 位 。 


本 章 将 以 R 语 言 为 统计 分 析 计算 工具 讲述 统计 分 析 基 础 ， 在 此 之 前 ， 请 各 位 读者 按照 第 一 部 分 准备 篇 中 的 指导 ， 将 R 语 言 计算 平台 搭建 好 。 


5.1 ”数据 分 析 概 述 


随 着 数据 分 析 技 术 的 不 断 发 展 ， 数 据 分 析 的 定义 众说 纷 经 。 作 者 尝试 将 数据 分 析 定 义 为 : “数据 分 析 是 将 数据 转化 成 知识 ， 对 数据 加 以 详细 的 研究 和 概括 总 结 的 过 程 ， 它 用 适当 的 统计 方法 对 收集 来 的 
大 量 数 据 进行 分 析 ， 发 现 数据 的 价值 ， 挖 掘 数 据 的 表征 的 知识 。 " 
在 第 二 次 世界 大 战 中 ， 数 据 分 析 第 一 次 登 上 世界 舞台 。 在 Budiansky、Stephen 所 著 的 《Blackett”s War》 中 ， 讲 述 了 一 个 由 数学 家 、 物 理学 家 组 成 的 团体 ， 通 过 对 数据 进行 收集 和 分 析 ， 使 用 数据 引 


导 战 争 的 故事 。 该 团队 运用 数据 分 析 技 术 对 付 纳粹 潜艇 舰队 ， 并 把 原始 雷达 系统 收集 的 数据 与 实际 战争 结合 起 来 分 析 ， 从 而 使 海岸 司令 部 的 飞机 拥有 恰当 的 飞行 路 线 ， 实 现 最 高 效 的 监视 。 同 时 他 们 还 证 明 
了 一 个 论断 : 在 一 个 15~24 艘 船 的 舰队 中 ， 每 艘 船 有 2.3% 被 击 沉 的 概率 ; 而 在 舰队 船 数 高 于 45 时 ， 被 击 沉 的 概率 只 有 1.1%。 


随 着 社会 的 发 展 ， 数 据 库 已 经 深入 到 各 行 各 业 ， 成 为 了 社会 信息 记录 的 重要 载体 。 为 了 解决 数据 的 查询 问题 ， 在 数据 库 发 展 的 早期 ，SQL 语 言 诞生 并 迅速 发 展 ， 目 前 它 仍然 活跃 在 数据 库 领 域 。 近 年 
来 ，“ 大 数据 ”一 词 被 炒 得 很 热 ， 大 数据 已 被 用 于 承载 数据 相关 的 绝 大 部 分 概念 ， 包 括 : 数据 海洋 、 社 交 媒 体 分 析 、 下 一 代数 据 管理 能 力 、 实 时 数据 等 。 各 大 公司 已 经 开始 理解 并 实践 探索 如 何 处 理 并 分 析 


大 量 信息 。 


无 限 风 光 在 险峰 ， 只 有 登 上 山顶 ， 才 能 看 到 真正 的 风光 ， 既 然 如 此 ， 那 我 们 就 开始 攀登 数据 分 析 这 座 “ 大 山 ” 吧 ! 


5.2 ”数学 基础 
统计 分 析 建 立 在 概率 与 统计 的 数学 基础 之 上 ， 在 此 ， 先 简要 介绍 一 下 相关 数学 公式 。 
1. 概 率 
概率 是 数学 概率 论 的 基本 概念 。 设 随机 事件 的 样本 空间 为 0， 对 于 @ 中 的 每 一 个 事件 A， 都 有 实 函 数 PLA)， 满 足 : 
非 负 性 : P(A)>0 
规范 性 : Р(О)=1 


可 加 性 : 对 n 个 两 两 豆 斥 事件 A1，...，An 有 : Yrarr(Q4) 


任意 一 个 满足 上 述 条 件 的 函数 P 都 可 以 作为 样本 空间 @ 的 概率 函数 ， 称 函数 值 PLA) 为 "中 事件 A 的 概率 。 


上 面 的 定义 严谨 但 不 易 理 解 ， 通 俗 来 说 ， 概 率 是 一 个 0 到 1 之 间 的 实数 ， 是 对 随机 事件 发 生 的 可 能 性 的 度量 。 人 们 有 了 时候 会 问 : “明天 会 更 冷 吗 ?“ 


关注 “天 气 变 冷 ”、“ 比 赛 取胜 ”等 事件 发 生 的 机 会 。 在 数学 上 ， 这 些 事 件 发 生 的 机 会 可 用 一 个 数 来 表示 ， 称 为 概率 。 概 率 的 主要 公式 如 下 。 


设 事件 A 发 生 的 概率 (可 能 性 ) 为 P(A)， 它 不 发 生 的 概率 (可 能 性 ) 为 P(A)， 它 们 之 间 的 关系 为 : 
P(A)=1-P( A ) 
n 个 事件 A1，.…，An 发 生 的 概率 为 : 


n n 


“今天 的 比赛 我 们 会 赢得 冠军 吗 ? ”等 ， 他 们 是 在 


PlUA|-Xpa)- У Paas X  GAA)y--CD" PAAA) 
i=] i=] 1 


<i=<j=<n 1xixjekzxn 


条 件 概率 是 事件 A 在 另外 一 个 事件 B 已 经 发 生 条 件 下 的 发 生 概率 。 条 件 概 率 记 为 P (AJB) ， 读 作 “ 在 B 条 件 下 A 的 概率 ”。 比 如 ，“ 如 果 明 天 更 冷 ， 需要 多 穿 一 件 外 套 吗 ? ”可 用 条 件 概率 描述 为 : 假设 
明天 天 气 更 冷 为 事件 8B， 多 穿 一 件 外 套 为 事件 A， 在 事件 B (天 气 更 冷 ) 发 生 的 情况 下 ， 事 件 A (多 穿 外 套 ) 发 生 的 概率 为 多 少 。 下 面 是 条 件 概率 的 数学 定义 。 


在 同一 个 样本 空间 Q 中 的 事件 或 者 子 集 A 与 B， 如 果 随 机 从 QQ 中 选 出 的 一 个 元 素 属 于 B， 那 么 这 个 随机 选择 的 元 素 还 属于 A 的 概率 就 定义 为 在 B 的 前 提 下 A 的 条 件 概率 。 定 义 为 : 


P(AIB)=|ANBI|/IBI 

再 将 上 式 中 的 分 子 、 分 母 都 除 以 [2|， 得 到 

Р(АПВ) 

P(AB)- 一 全 一 
PG) 

其 中 ，P(ANB) 表 示 联 合 概率 ， 指 A 和 B 两 个 事件 共同 发 生 的 概率 ， 也 可 以 记 为 P(A，B) 或 P(AB)。 


条 件 概率 在 贝 叶 斯 统计 中 也 称 为 后 验 概 率 ， 即 在 考虑 和 给 出 相关 证 据 或 数据 后 所 得 到 的 条 件 概率 。 


现实 生活 中 ， 使 某 事件 发 生 的 前 提 (条 件 概率 中 的 “条 件 ”) 可 能 不 止 一 个 。 比 如 : 在 事件 B1，...，Bn 发 生 的 前 提 下 ， 事 件 A 发 生 的 概率 是 多 少 ? 将 其 定义 如 下 : 


P(A)= 2, P(AB)= 2, P(B) * P(AIB) 


前 面 几 个 公式 都 是 根据 前 提 来 推测 事件 发 生 的 概率 的 ， 能 不 能 根据 事件 发 生 的 概率 推测 其 前 提出 现 的 概率 呢 ? 当然 可 以 ， 实 质 上 ， 这 就 是 根据 结论 推测 原因 发 生 的 概率 。 比 如 ， 为 什么 前 面 堵车 了 (= 


件 A) ， 是 因为 发 生 了 交通 事故 (事件 B1) 还 是 路 上 车辆 太 多 以 致 拥塞 (事件 B2) ， 或 是 下 完 大 雨 道路 状况 很 差 (事件 B3) ? 


下 面 的 公式 定义 了 事件 A (结论 ) 发 生 了 ， 事 件 Bk (原因 ) 发 生 的 概率 ， 


P(AB) | Р(ВӘР(А|В) 
A у= Р(А) — WE 


P(B, — 
2 P(B)P A IB) 





概率 分 布 简称 分 布 ， 是 数学 概率 论 的 一 个 概念 ， 广 义 上 指 随机 变量 的 概率 性 质 ， 狭 义 上 是 指 随机 变量 的 概率 分 布 函数 ， 使 用 最 为 普遍 的 是 狭义 上 的 定义 。 在 此 只 讲解 狭义 概率 分 布 。 


1) 随机 变量 分 布 。 随 机 变量 的 实质 是 浮 数 ， 其 数学 定义 为 : 设 浮 数 X 对 于 概率 空间 S 中 每 一 个 事件 e 都 有 定义 X(e)， 其 中 函数 值 为 实数 ， 同 时 ， 每 一 个 实数 r 都 有 一 个 事件 集合 A 与 其 对 应 ， 其 中 Ar= 


{e:X(e)<r}， 则 将 X 称 作 随 机 变量 。 


通俗 地 说 ， 一 个 随机 试验 可 能 结果 (基本 事件 ) 的 全 体 组 成 一 个 基本 空间 0， 随 机 变量 X 是 定义 在 基本 空间 0 上 的 取 值 为 实数 的 函数 ， 即 基本 空间 0 中 每 一 个 点 ， 也 就 是 每 个 基本 事件 都 有 实 轴 上 的 点 与 


之 对 应 。 比 如 : 在 一 次 扔 硬币 事件 中 ， 将 获得 的 国徽 的 次 数 作为 随机 变量 X， 则 X 可 以 取 两 个 值 ， 分 别 是 0 和 1。 


如 果 随 机 变量 X 的 取 值 是 有 限 的 或 是 以 下 可 数 无 穷尽 的 值 : 


Х={х|, хо, Хз, ©} 


则 称 X 为 离散 随机 变量 

如 果 X 由 全 部 实数 或 者 由 一 部 分 区 间 组 成 : 

Х={х|а<х<Ь}, -оо<а<Ь<оо 

则 称 X 为 连续 随机 变量 ， 连 续 随机 变量 的 值 是 不 可 数 并 无 穷尽 的 。 

设 P 为 概率 测度 ，X 为 随机 变量 ， 则 函数 FL)=P(X<x)(XER) 称 为 X 的 概率 分 布 函 数 。 将 随机 变量 区 间 的 下 限定 义 为 8， 上 限定 义 为 b， 则 分 布 概率 P(a<X<b) 的 定义 为 : 
р(а< X « b)- P(X € b)-P(X « ) 

-F(b)-F(a 


2) 离散 随机 变量 分 布 。 离 散 型 随机 变量 X 的 所 有 取 值 与 其 对 应 的 概率 间 的 关系 ， 称 为 离散 型 随机 变量 X 的 概率 分 布 ， 或 称 为 概率 国 数 。 可 用 列表 法 表示 离散 随机 变量 的 分 布 ， 如 表 5-1 所 示 。 





ШЕТЕГ C Do PT р 
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表 5-1 中 第 1 行 是 随机 变量 的 值 ， 第 2 行 是 每 个 值 出 现 的 概率 。 比 如 : 用 随机 变量 描述 投掷 一 枚 咒 子 点 数 的 概率 分 布 ， 用 随机 变量 X 表 示 投 掷 一 枚 咒 子 出 现 的 点 数 ， 概 率 分 布 PC -b- s 6-12, 79 pg 
如 表 5-2 所 示 的 列表 描述 。 





表 5-2 MIEREA 


于 点 数 X ааа 6 


离散 随机 变量 的 概率 分 布 具有 以 下 两 个 性 质 : 


p > 0 (f=1,2,…, n) 


2 pe! 
k=1 


3) 0-1 分 布 。 伯 努 利 试验 是 只 有 两 种 可 能 结果 的 单 次 随机 试验 ， 即 随机 变量 X 只 有 两 个 值 0 或 1，0-1 分 布 又 名 伯 努 利 分 布 或 者 两 点 分 布 ， 是 一 个 离散 型 概率 分 布 。 若 伯 努 利 试验 成 功 ， 则 随机 变量 取 值 为 
否则 随机 变量 取 值 为 0， 成 功 概率 为 p(0<p<1T)， 失 败 概率 为 q=1-p。0-1 分 布 的 概率 质量 函数 (概率 质量 函数 的 值 就 是 离散 随机 变量 分 布 的 概率 ) 定义 如 下 : 


Р(Х=Ю)=р‹(1-р)'*, к=0, 1 


4) 二 项 分 布 。 二 项 分 布 即 重复 n 次 独立 的 伯 努 利 试验 ， 在 每 次 试验 中 只 有 两 种 可 能 的 结果 ， 而 且 两 种 结果 发 生 与 否 互相 对 立 ， 并 且 相 互 独立 ， 与 其 他 各 次 试验 结果 无 关 。 每 次 试验 的 成 功 概 率 为 p， 当 
n=1 时 ， 二 项 分 布 就 是 0-1 分 布 。 


如 果 随机 变量 X 服 从 参数 为 n 和 p 的 二 项 分 布 ， 可 记 为 X~B(n，p)，n 次 试验 正好 得 到 k 次 成 功 的 概率 为 下 面 的 概率 质量 函数 : 


P(X-kj-C*, p'(1-p)"*, k-0,1,--:, п 


k n! 
其 中 ，C 一 TF 


5) Poisson 分 布 。Poisson 分 布 又 名 泊 松 分 布 ， 主 要 摘 述 单位 时 间 内 随机 事件 发 生 的 次 数 的 概率 分 布 。 比 如 : 某 服务 设施 在 一 定时 间 内 收 到 的 服务 请 求 的 次 数 、 电 话 交换 机 接 到 呼叫 的 次 数 、 机 器 出 现 
的 故障 次 数 等 。 浊 松 分 布 的 概率 质量 函数 为 : 


k 
-À A 


P(X-Kk)-e "E 


k-0.1.2,-- 


若 X 服 从 参数 为 和 的 泊 松 分 布 ， 记 为 X~T()， 或 记 为 X~ P (À). 


b 
Р(а<Х < by- x)dx 
在 了 解 了 概率 基础 知识 后 ， 再 来 看 看 连续 型 随机 变量 ， 对 于 随机 变量 X， 若 存在 非 负 可 积 函数 p00(-oo<X<+oo)， 使 得 对 任意 实数 a，b(a<b)， 都 有 ”ja ?路 ， 则 x 为 连续 型 随机 变 


量 ，P(a<X<b) 为 累积 分 布 函数 (概率 密度 函数 的 积分 ， 可 完整 描述 实 随机 变量 X 的 概率 分 布 ) ， 函 数 P(xg) 为 随机 变量 的 概率 密度 函数 ，pP(x) 的 图 像 为 概率 密度 曲线 ， 如 图 5-1 所 示 。 





图 5-1 概率 密度 曲线 
概率 密度 函数 PC 有 如 下 性 质 : 
: p) 20 


| |. М p(x)dx=1 


定 积分 的 几何 意义 为 : 对 于 一 个 给 定 的 正 实 值 函数 fc，f 在 一 个 实数 区 间 [a，b] 上 的 定 积分 | 是 在 Oxy 坐 标 平面 上 ， 由 曲线 k，flo)、 直 线 x=a，x=b 以 及 x 轴 转 成 的 曲 边 梯形 的 面积 值 ， 如 图 5-2 
中 的 阴影 部 分 。 





图 5-2” 定 积分 的 几何 意义 


b 
根据 图 5-2 所 示 的 定 积分 几何 意义 ，|zau 为 图 5-1 中 的 阴影 部 分 ， 其 中 px 为 概率 密度 函数 ， 而 Are<s 入 jzot， 因 此 ， 连 续 随机 变量 X 在 a 与 b 之 间 分 布 的 概率 为 概率 密度 函数 在 区 间 [a，b] 上 的 定 积 


概率 质量 函数 和 概率 密度 函数 不 同 之 处 在 于 : 概率 质量 函数 针对 离散 随机 变量 定义 ， 本 身 代表 随机 变量 在 确定 取 值 点 处 的 概率 ; 概率 密度 函数 针对 连续 随机 变量 定义 ， 代 表 随 机 变量 在 确定 取 值 点 附近 
可 能 性 的 概率 ， 只 有 对 连续 随机 变量 的 概率 密度 函数 在 某 区 间 内 进行 积分 (积分 后 得 到 累积 分 布 函数 ) 后 才能 完成 概率 的 计算 。 


6) 连续 型 均匀 分 布 。 连 续 型 随机 变量 在 等 长 度 的 每 个 空间 上 取 值 的 概率 都 相同 ， 则 称 X 服 从 [a，b] 上 的 均匀 分 布 ， 记 作 X~U[a，b]， 它 的 概率 密度 函数 为 : 





1 
sexu 
fad b-a’ 
0 ,其 他 
累积 分 布 遂 数 为 : 
0 .x«a 
— sd 
F(x) a пес Sp 
1 xc 
° 
连续 型 均匀 分 布 国 数 的 期 望 值 和 中 值 等 于 区 间 [a，b] 上 的 中 间 点 : 
a+b 
E[X]= 5 


732573: 
Var[X]- = 


7) 指数 分 布 。 指 数 分 布 可 用 来 表示 独立 随机 事件 发 生 的 时 间 间 隔 ， 比 如 旅客 进 机 场 的 时 间 间 隔 等 。 它 的 概率 度 函 数 随 着 取 值 的 变 大 而 指数 减 小 ， 定 义 如 下 : 


| Де”, x>0 
feo 


0 , 其 他 
其 中 ，》 是 指 每 单位 时 间 发 生 该 事件 的 次 数 ，A> 0。 
累积 分 布 函数 定义 为 : 

0 , x< 


F(x)= 
1 k = 0 


8) 正 态 分 布 。 若 随机 变量 X 服 从 一 个 位 置 参 数 为 h、 尺 度 参 数 为 c 的 概率 分 布 ， 记 为 : X~ N(HN，a5)， 服 从 正 态 分 布 的 随机 变量 的 概率 规律 为 : 与 b 越 邻近 的 值 的 概率 越 大 ， 离 H 越 远 的 值 的 概率 越 小 ; o 
越 小 ， 分 布 越 集中 在 h 附 近 ，a 越 大 ， 分 布 越 分 散 。 正 态 分 布 的 概率 密度 函数 曲线 呈 钟 形 ， 又 经 常 被 称 为 钟 形 曲线 ， 密 度 函 数 为 : 


l (х-н)? 
A) pra ab з=н 


累积 分 布 函 数 为 : 





| X 
Fœ@=5= | e 2 dt 
(X) m m 20 
正 态 分 布 密度 具有 如 下 性 质 : 
- 曲线 关于 直线 x=h 对 称 。 


| х=, КУЛАЙ gia, 
К) 8 HE 3£ 2Xy=0 


E l 
РОИ] 








+ o0 1 (t-u)? 
e 3 dx-1 
. 上 о J2TO 20" А 


3. 随 机 变量 数字 特征 相关 公式 
分 布 函 数 完全 刻画 了 随机 变量 取 值 的 概率 规律 ， 因 此 ， 在 实践 中 ， 我 们 需要 知道 随机 变量 的 某 些 分 布 指标 ， 比 如 变量 的 分 布 趋势 、 分 布 均匀 程度 等 ， 以 便 分 析 随 机 变量 的 数字 特征 。 


1) 数学 期 望 。 数 学 期 望 反 映 了 随机 变量 的 平均 取 值 。 离 散 性 随机 变量 的 数学 期 望 是 试验 中 每 次 可 能 结果 的 概率 乘 以 其 结果 的 总 和 ， 离 散 型 随机 变量 X 的 数学 期 望 为 : 


E[X]- 2, хр 
к=] 


连续 型 随机 变量 X 的 数学 期 望 为 : 


+O „ 
E[X]- | ~ fod 
2) 方差 。 方 差 刻 画 了 随机 变量 对 它 的 均值 的 偏离 程度 ， 如 果 E[X] 是 随机 变量 X 的 期 望 值 (平均 数 h=E[X) ， 则 随机 变量 X 或 者 分 布 F 的 方差 为 : 
? 
VarQO)-E[QC-uy] 


3) 协 方差 。 协 方差 表示 的 是 两 个 变量 的 总 体 的 误差 ， 如 果 两 个 变量 的 变化 趋势 一 致 ， 也 就 是 说 ， 如 果 其 中 一 个 大 于 自身 的 期 望 值 ， 另 外 一 个 也 大 于 自身 的 期 望 值 ， 那 么 两 个 变量 之 间 的 协 方差 就 是 正 
值 。 如 果 两 个 变量 的 变化 趋势 相反 ， 即 其 中 一 个 大 于 自身 的 期 望 值 ， 另 外 一 个 却 小 于 自身 的 期 望 值 ， 那 么 两 个 变量 之 间 的 协 方差 就 是 负 值 。 如 果 X 与 Y 是 统计 独立 的 ， 那 么 二 者 之 间 的 协 方 差 就 是 0。 

期 望 值 分 别 为 EX)=H 与 E(Y)=v 的 两 个 实数 随机 变量 X 与 Y 之 间 的 协 方差 ， 定 义 为 : 

cov(X, Ү)=Е[СХ-ш) (Ү-У)] 

其 中 E 是 期 望 值 ， 也 可 表示 为 : 


cov(X, Y)=E(XY)-uv 


在 进行 回归 分 析 时 ， 通 常 利用 数理 统计 中 的 回归 方法 ， 确 定 两 种 或 两 种 以 上 变量 间 相 互 依赖 的 定量 关系 。 
5.3.1 单 变 量 线性 回归 


在 第 3 章 中 曾 谈 到 数据 的 线性 回归 ， 可 能 会 出 现 一 种 情况 ， 所 有 的 数据 点 都 准确 地 落 在 了 回归 线 上 。 但 在 现实 中 ， 很 难 有 如 此 精确 的 模型 ， 比 如 有 两 个 变量 x 和 y， 其 中 ，x= 
[5, 7, 9, 11, 16, 20], у=[1, 2, 3, 4, 7, 9], 现在 要 在 x 与 y 之 间 建 立 回归 模型 ， 该 如 何 实现 ? 


在 建立 回归 线 之 前 ， 先 通过 R 语 言 的 plot 函 数 绘制 这 些 点 的 位 置 ， 观 察 分 布 规律 ， 如 图 5-3 所 示 。 
> plot (x, y) 


图 5-3 称 为 散 点 图 ， 能 清晰 地 在 坐标 系 中 查看 数据 点 位 置 ， 横 轴 为 x， 纵 轴 为 y。 
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图 5-3” 散 点 图 
从 散 点 图 上 可 以 看 出 x 和 y 之 间 存 在 线性 关系 ， 可 以 表示 为 y=kx+b 这 种 一 次 函数 的 模型 。 不 过 想 要 男 一 条 直线 完全 穿 过 这 些 点 是 不 可 能 的 ， 但 能 保证 这 些 点 到 这 条 直线 的 距离 最 小 ， 这 个 距离 就 是 残 


差 。 残 差 是 观测 值 与 预测 值 之 间 的 差 。 下 面 来 具体 看 一 下 。 


首先 ， 通 过 lsfit 函 数 计算 回归 直线 方程 的 斜率 和 截 距 以 及 残 差 。 代 码 如 下 : 





> lsfit (х,у) 
Scoefficients 

Intercept X 
3.338028 1.845070 


$residuals 
[1] -0.18309859 -0.02816901 0.12676056 0.28169014 -0.25352113 0.05633803 























上 面 代 码 中 出 现 的 residuals 表 示 残 差 ， 残 差分 别 反映 了 这 些 点 与 直线 的 差异 ， 残 差 越 小 越 好 。 残 差 直接 反映 了 数据 点 到 回归 直线 的 距离 ，-0.18309859、-0.02816901、0.12676056、0.28169014、- 
0.25352113、0.05633803 分 别 是 当 x 值 为 [1，2，3，4，7，9] 时 ， 用 y=1.845070x+3.338028 回 归 方 程 求 得 的 y 值 与 实际 y 值 [5，7，9，11，16，20] 的 差额 。 残 差 e 的 计算 公式 为 : 


ei-y;-yi(i71 A, T A) 


其 中 ，y 圳 示 实 际 值 ， 思 为 按 回归 方程 预测 的 值 。 
例如 ， 将 x=2 代 入 该 例 中 的 回归 方程 ， 即 为 y=1.845070x2+3.338028， 计 算 可 得 到 y 的 预测 值 ， 然 后 得 到 残 差 ， 如 下 所 示 : 
实际 y 值 -预测 y 值 <1 .845070x2+3.338028-7=-0.02816901 


然后 ， 绘 制 散 点 图 及 回归 线 。 命 令 如 下 : 








»abline (lsfit (x,y)) 


刚才 将 2 代入 回归 方程 后 ， 计 算 1.845070x2+3.338028-7， 得 到 残 差 仅 为 -0.02816901， 在 图 5-4 中 找到 回归 线 上 x=2 时 y 的 值 ， 能 看 出 ， 圆 圈 代 表 的 y 值 几乎 贴近 回归 线 。 再 看 x=1、3、4、7、9 时 ， 回 
归 线 对 应 的 y 值 都 比较 贴近 回归 线 ， 这 些 数 据点 紧 靠 在 回归 线 周 围 ， 显 然 回归 效果 不 错 。 


残 差 不 应 该 有 某 种 趋势 ， 若 残 差 中 出 现 一 种 明显 的 趋势 ， 则 意味 着 模型 不 适合 。 如 图 5-4 所 示 的 残 差分 布 较 均匀 ， 没 有 明显 的 趋势 显示 大 量 数据 点 偏离 了 回归 线 。 
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事实 上 ， 也 可 以 使 用 Im 消 数 进行 更 详细 的 回归 分 析 。 代 码 如 下 : 


4 6 a! 
x 


854 散 点 图 及 回归 线 


> x«-c(1,2,3,4,7,9) 

> y«-c(5,7,9,11,16,20) 
> lm(y-x)->xy 

> summary (xy) 

Call: 

lm(formula = y ~ x) 
Residuals: 











-0.18310 -0.02817 0.12676 0.28169 -0.25352 0.05634 
Coefficients: 

Estimate Std. Error t value Pr(»|t|) 

(Intercept) 3.33803 0.16665 20.03 3.67e-05 *** 

x 1.84507 0.03227 57.17 5.60e-07 *** 
Signif. codes: 0 '***' 0,001 '**' 0.01 '*' 0.05 ^? 0.1 <^? 1 
Residual standard error: 0.222 on 4 degrees of freedom 
Multiple R-squared: 0.9988, Adjusted R-squared: 0.9985 
F-statistic: 3269 оп 1 and 4 DF, p-value: 5.604e-07 
»plot (x, y) 

»abline( lm(y~x)) 





















































在 上 述 代码 中 ，Coefficients 栏 的 内 容 如 下 。 

: Estimate: 斜率 与 截 距 的 估计 值 。 

' Std.Error: 斜率 与 截 距 的 估计 标准 差 。 

.tvalue: 斜率 与 截 距 的 假设 检验 的 t 值 。 

' Pr(> lt): 与 显著 性 水 平 比较 ， 决 定 是 否 接受 该 假设 检验 。 


在 Coefficients 每 行 的 最 后 一 列 有 星 号 ， 这 个 星 号 的 含义 表示 线性 关系 是 否 显著 : * 的 数量 是 0~3，* 的 数量 越 多 则 线性 关系 越 显著 。 本 例 中 ，Coefficients 栏 的 Pr(>| 贡 字段 (3.67e-05 以 及 5.60e-07) 后 
标注 有 ***， 说 明 x 与 y 之 间 的 线性 关系 很 强 。 


В.З: 


多 


多 元 线性 回归 


y-botb,x, box, Es "Fbiss tre 


Ен, уа, x1, X2, 


seg Xk 为 自 变 量 ， bo 为 常数 项 ， b1, b2, 


元 性 回归 可 建立 多 个 自 变量 和 应 变量 之 间 的 关系 ， 其 回归 模型 方程 一 般 为 : 


…，Xk 为 回归 系数 。 


在 进行 多 元 线性 回归 分 析 时 ， 可 使 用 Im 函数 ， 在 上 节 例子 的 基础 上 增加 一 个 自 变 量 x2=[3，4，5，6，8，10]， 来 看 看 会 有 什么 效果 。 代 码 如 下 : 







































































» y«-c(5,7,9,11,16,20) 

» x«-c(1,2,3,4,7,9) 

» x2«-c(6,8,10,12,16,20) 
> lm(y~x+x2) ->xy2 

> summary (xy2) 

Call: 

lm(formula = y ~ x + x2) 
Residuals: 

1 2 3 4 5 6 
-7.495e-16 9.195е-16 4.172е-17 -2.117e-16 1.839e-16 -1.839e-16 
Coefficients: 

Estimate Std. Error t value Pr(»|t|) 
(Intercept) 1.000e+00 3.787e-15 2.640е+14 <2е-16 *** 
x 1.000е+00 1.359e-15 7.357е+14 <2е-16 *** 
х2 5.000е-01 8.019е-16 6.236e414 <2е-16 *** 
Signif. codes: 0 '***' 0.001 '**' 0.01 “° 0.05 '.' 0.1 
Residual standard error: 7.121e-16 on 3 degrees of freedom 
Multiple R-squared: 1, Adjusted R-squared: 1 











F-statistic: 1.591е+32 on 2 апа 3 РЕ, 





5.3.3” 非 线性 回归 

















p-value: < 2.2e-16 


得 出 该 回归 方程 为 y=x+0.5xx2+1，Std.Error、t value、Pr(>t) 以 及 线性 相关 程度 等 指标 的 合 义 同 单 变量 线性 回归 类 似 。 


非 线 性 回归 模型 较 多 ， 其 中 应 用 得 较 多 的 有 以 下 模型 : 


1) 多 项 式 模型 : 


y=Bot+B1x+ Box? ee бүх+є 


2) 指数 模型 : 


4) 成 长 曲线 模 : 


y=1/(BotB1e *+e) 


讲解 非 线 性 回归 的 方法 。 


1) 准备 回归 分 析 用 数据 (假设 已 预先 知道 回归 方程 ， 通 过 回归 方程 精确 计算 y 值 ) ， 


实际 应 用 中 ， 除 上 述 模型 外 ， 


»x«-c(1,2,3,4,7,8,9) 
>у «- 100 + 10 * exp(x / 2) + rnorm(x) 





2) 使 用 R 语 言 的 nls 函 数 ， 应 用 最 小 二 乘法 原理 ， 实 现 非 线性 回归 分 析 。 


»nlmod «- nls(y ~ 


Const + А * ехр (] 


3) 使 用 ummary 函 数 分 析 拟 合 结果 。 


> summary (nlmod) 


还 有 很 多 非 线性 回归 模型 ， 但 无 论 是 哪 种 非 线 性 回归 模型 ， 





В * x)) 


Formula: y ~ Consi 
Parameters: 
Estimate Std. Error 




















С + А * exp(B * x) 


t value Pr(»|tl) 























119.4 2.95e-08 
57.2 5.59e-07 
259.5 1.32e-09 


0.001 '**' 0.01 
.l on 4 degrees of 





Const 1.001е+02 8.377е-01 
А 1.006e-01 1.759e-01 
B 4.995e-01 1.925e-03 
Signif. codes: 0 '***' 
Residual standard error: 1 
Number of 











Achieved convergence 


> 


Жжж 
大 炎炎 
ЖЖЖ 


"e^ 0.05 "VS 0,1 








Freedom 








iterations to convergence: 8 





tolerance: 





.887e-07 





其 中 ， 在 Parameters 栏 ， 对 方程 涉及 的 以 下 3 个 参数 进行 了 预测 : 


Bo=Const=1.001e+02 


81=A=1.006e+01 


b=B=4.995e-01 


将 以 上 参数 与 程序 中 y 值 的 生成 规则 进行 对 比 ， 可 以 看 见 ， 拟 合 效果 还 是 不 错 的 。 


最 后 都 可 以 通过 变量 变换 转化 为 线性 模型 ， 从 而 用 最 小 二 乘法 进行 回归 分 析 。 下 面 以 y=Bo+B1epx+s 模 型 为 例 


前 面 为 解释 非 线 性 回归 过 程 ， 将 x 代 入 参数 确定 的 非 线 性 回归 方程 计算 y 值 ， 然 后 ， 依 据 x 和 y 推 出 非 线 性 回归 方程 的 参数 。 但 实践 应 用 中 ， 往 往 需要 依据 一 组 x 值 和 y 值 ， 推 导 非 线性 方程 的 参数 ， 因 此 ， 


尝试 通过 rnorm 遂 数 产 生 较 小 的 随机 数 ， 加 在 精确 计算 的 y 值 上 ， 这 样 计算 后 形成 的 非 线 性 回归 模型 拥有 一 定 的 残 差 ， 较 接近 真实 环境 。 


>y <- 100 + 10 * exp(x / 2) + rnorm(x) 








4) 绘制 拟 合 效果 图 。 代 码 如 下 : 


>plot (x,y, main = "nls(o)") 
>curve (100 + 10 * exp(x / 2), col = 4, add = TRUE 
>lines (x, predict (nlmod), col = 2,type-'b') 





— 


如 图 5-5 所 示 为 拟 合 效果 图 ， 显 示 出 拟 合 效果 不 错 。 其 中 ， 偏 上 的 线 为 预测 的 回归 线 ， 偏 下 的 线 为 实际 方程 。 回 归 在 4，7] 的 区 间 内 拟 合 效果 较 差 ， 这 是 样本 数据 太 少 的 原因 ， 因 为 样本 数据 仅 有 9 个 。 


参与 拟 合 的 样本 数据 量 决定 了 拟 合 效果 的 好 坏 。 可 以 加 大 自 变 量 的 数量 ， 重 新 应 用 nls 函 数 进行 拟 合 ， 来 看 看 效果 如 何 。 代 码 如 下 : 





»x«-seq(1,10,0.1) 
>у «- 100 + 10 * exp(x / 2) + rnorm(x) 
»nlmod <- nls(y ~ Const + A * exp(B * x)) 

















>plot (x,y, main = "nls(o)") 
>curve (100 + 10 * exp(x / 2), col = 4, add = TRUE) 


>1іпеѕ (х, predict (nlmod), col = 2) 





如 图 5-6 所 示 是 相应 的 效果 图 ， 从 中 可 以 看 出 ， 回 归 线 与 实际 方程 线 很 接近 。 


不 过 ， 图 5-6 所 示 的 回归 效果 仍 人 存在 一 个 问题 ， 就 是 样本 过 于 集中 在 回归 线 上 了 ， 为 使 回归 分 析 更 接近 真实 应 用 环境 ， 需 要 继续 加 大 随机 数 的 范围 ， 增 加 非 线性 回归 的 残 差 ， 使 样本 点 散布 在 回归 线 周 
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图 5-6” 非 线性 回归 效果 图 


>x<-seq (1,10,0.1) 
>y <- 100 + 10 * exp(x / 2) + rnorm 
(x) *100 

»nlmod «- nls(y ~ 
>plot (x,y, main = 

>curve (100 + 10 * 

>lines(x, predict (nlmod), col 





Const + A * exp(B * x)) 
"nls (о) ") 
ехр(х / 2), со1 = 4, ада = TRUE 
= 2) 











~ 一 








从 图 5-7 可 以 看 出 ， 样 本 点 虽然 没有 集中 在 回归 线 上 ， 而 是 散落 在 回归 线 周围 的 区 域 ， 产 生 的 残 差 较 大 ， 但 样本 点 的 整体 走向 与 回归 线 一 致 ， 此 外 ， 回 归 线 与 实际 方程 这 两 条 线 几乎 重 亚 ， 说 明 回 归 分 析 
较 准 确 地 预测 出 回归 方程 的 各 个 参数 。 因 此 ， 从 整体 上 观察 ， 拟 合 效果 不 错 ， 回 归 模 型 适当 。 


nls(o) 


| 500 


500 





图 5-7 接近 真实 环境 的 非 线 性 回归 


54 ”数据 分 析 基 础 
5.4.1 区 间 频 率 分 布 


ET [B] 展 级 
2013-05-20Т23:57:12.000+00:00 1.6 
2013-05-20Т23:57:12.000+00:00 0.9 
2013-05-20Т23:52:59.000+00:00 2.1 


2013-05-20123:49:15.100+00:00 
2013-05-20123:46:36.000+00:00 
2015-05-20125:44:07.000—00:00 
2015-05-20125:38:17.000—00:00 
2013-05-20123:34:12.400+00:00 
2015-05-20123:33:45.440--00:00 
2013-05-20T123:25:20.500-—00:00 
2013-05-20123:23:35.100+00:00 
2015-05-20125:07:34.960—00:00 
2013-05-20123:06:42.800+00:00 
2013-05-20123:01:25.480+00:00 
2015-05-20122:59:58.000—00:00 
2015-05-20122:51:47.120--00:00 
2015-05-20122:48:40.5 70+00:00 
2013-05-20122:48:18.350+00:00 
2013-05-20122:36:27.310+00:00 
2013-05-20122:13:36.000—00:00 
2013-05-20122:13:09.000+00:00 
2013-05-20122:10:47.000+00:00 
2013-05-20122:09:33.600—00:00 


下 面 就 以 上 面 的 数据 为 例 ， 来 讲述 区 间 频 率 分 布 。 现 在 的 任务 是 完成 地 震 震 级 分 析 。 


1) 将 地 震 震 级 数据 放 入 一 个 向 量 中 。 代 码 如 下 : 


mag«-c (1.6,0.9,2.1,2.2,2.3 
4:6,1.35,2.1,145,3) 
> mag 

[1] 1.6 0.9 2.1 2.2 2.3 1 
[19] 4.6 1.3 2.1 1.5 3.0 





riled ds 3;2 /0.9;4,7;0.;6,5.3,1;1 4.8, ,2,4.2, 


.7 1.3 1.6 4.7 1.2 0.9 4.7 0.6 5.3 1.1 4.8 4.0 4.2 





























or (cut (mag, 5)) 
] (1.54,2.48] (0.595,1.54] (1.54,2.48] (1.54,2.48]  (1.54,2.48] 
[6] (1.54,2.48] (0.595,1.54] (1.54,2.48]  (4.36,5.3] (0.595,1.54] 
[11] (0.595,1.54] (4.36,5.3] (0.595,1.54] (4.30,5.3] (0.595,1.54] 
[16] (4.36,5.3] (3.42,4.36] (3.42,4.36]  (4.36,5.3] (0.595,1.54] 
[21] (1.54,2.48] (0.595,1.54] (2.48,3.42] 
Levels: (0.595,1.54] (1.54,2.48] (2.48,3.42] (3.42,4.36] (4.36,5.3] 











3) 统计 因子 频率 。 代 码 如 下 : 








>factor (cut (mag, 5) ) -»magfactor 














> table (magfactor) 
magfactor 
(0.595,1.54] (1.54,2.48] (2.48,3.42]  (3.42,4.36] (4.36,5.3] 
8 7 1 2 5 
可 以 看 出 2013 年 5 月 20 日 22 点 到 24 点 期 间 ， 全 球 发 生 的 地 震 在 (0.595，1.54] 内 有 8 起 ， 在 (1.54，2.48] 内 有 7 起 等 。 


4) 绘制 直方 图 。 在 R 语 言 中 ， 可 使 用 hist 函 数 绘制 直方 图 。 


> hist (mag,breaks-5) 





绘制 结果 如 图 5-8 所 示 。 
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图 5-8 直方 图 


542 ”数据 直方 


直方 图 又 称 柱状 图 、 质 量 分 布 图 ， 是 一 种 对 数据 分 布 情况 的 图 形 表示 ， 由 一 系列 高 度 不 等 的 纵向 条 纹 或 线段 表示 数据 分 布 的 情况 ， 它 根据 从 生产 过 程 中 收集 来 的 质量 数据 分 布 情况 ， 组 成 以 组 距 为 底 
边 、 以 频数 为 高 度 的 一 系列 连接 起 来 的 直方 型 矩形 图 。 


地 震 数 据 是 一 种 次 数 直方 图 ， 是 由 若干 宽度 相等 、 高 度 不 一 的 直方 条 紧密 排列 在 同一 基线 上 构成 的 图 形 ， 其 中 基线 上 每 个 区 间 代 表 了 一 段 震 级 ， 高 度 代表 了 这 段 震 级 发 生地 震 的 次 数 (频率 ) 。 


1) 用 R 语 言 的 read.table 函 数 读 取 地 震 震 级 的 文件 (read.table 方 法 可 读 取 文 件 ， 生 成 list 组 件 类 型 的 数据 集 ， 并 且 ， 通 过 指定 header=TRUE 参 数 ， 可 将 文件 头 作为 字段 变量 名 ) 。 








> read.table ("eqweek.csv",header-TRUE, sep-", ") -2earthquake 





2) 显示 读 取 的 地 震 数据 (2013.5.14-2013.5.20) ， 验 证 读 取 内 容 是 否 完整 。 




















> earthquake DateTime.Latitude.Longitude.Depth.Magnitude.MagType.NbStations.Gap.Distance.RMS.Source.EventID.Version 
1 2013-05-20723:57:12.000+00:00,63.45,-148.291,5.5,1.6,М1,,,,0.8,ак,ак10720946,1.3691Е+12 














2 2013-05-20723:52:59.000+00:00, 61.337, -152.069,81.4,2.1,М1,,,, 
1.15,ак, ак10720941,1.36909Е+12 

3 2013-05-20723:49:15.100+00:00,19.99,-155.426,38.2,2.2,Ма,,133,0.1,0. 

11,hv,hv60501711,1.3691E412 

4 2013-05-20723:46:36.000+00:00, 60.498, -142.974,4.2,2.3,М1,,,, 

0.43,ак, ак10720934,1.36909Е+12 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 







































































3) 绘制 数据 直方 图 ， 观 察 从 2013 年 5 月 14 日 至 2013 年 5 月 20 日 这 周 内 全 球 地 震 震 级 的 分 布 情况 。 代 码 如 下 : 


> hist (earthquakeSMagnitude, 5) 








生成 的 直方 图 如 图 5-9 所 示 。 其 中 横 轴 是 震级 ， 纵 轴 是 频率 分 析 。 通 过 观察 可 得 出 结论 : 震级 在 1~ 2 级 的 地 震 帮 生 频 率 最 高 ， 因 为 在 x 为 1~2 时 ， 长 方形 柱 体 最 高 ; 2~3 级 的 柱 体高 度 仅 次 于 1~2 级 ， 发 生 
频率 排名 第 二 ; 发 生 频 率 最 小 的 是 6~ 7 级 的 地 震 ， 柱 体高 度 很 小 。 总 体 来 说 ，1~3 级 和 4~ 5 级 的 地 震 发 生 较 频繁 。 
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图 5-9 ”震级 分 布 直方 图 


数据 直方 图 能 直观 地 说 明 数据 在 每 个 区 间 的 分 布 频率 ， 但 如 果 需 要 精确 的 分 布 频率 ， 则 需要 使 用 R 语 言 的 因子 对 象 。 先 通过 cut 范 数 将 数据 分 组 ， 然 后 通过 factor0 函 数 生成 因子 对 象 ， 最 后 使 用 table 函 
数 分 析 频率 。 代 码 如 下 : 





> table (factor (cut (earthquakeSMagni tude, 5) ) ) 
(0.995,2.1] (2.1,3.2] (3.2,4.3] (4.3,5.4] (5.4,6.51 
693 200 46 126 1 











ФО er) 


观察 上 述 结果 的 最 后 两 行 ， 每 个 区 间 的 震级 频率 一 目 了 然 ，(0.995，2.1] 区 间 的 震级 频率 是 693 次 ，(2.1，3.2] 区 间 的 震级 频率 是 200 次 等 。 


5.4.3 ”数据 散 点 图 
甬 过 直接 观察 图 形 辨认 某 现象 的 测量 值 与 可 能 原因 因素 之 间 的 关系 ， 具 有 快捷 、 易 于 交流 和 易于 理解 的 特点 。 


数据 散 点 图 是 指数 据点 在 直角 坐标 系 平面 上 的 分 布 图 ， 
变量 而 变化 的 大 致 趋势 ， 将 序列 显示 为 一 组 点 ， 值 由 点 在 图 表 中 的 位 置 表 示 ， 类 别 由 图 表 中 的 不 同 标记 表示 。 通 常用 垂直 轴 表 示 现 象 值 Y， 用 水 平 轴 表 示 可 能 有 关系 的 原因 因 


数据 散 点 图 表示 因 变 量 随 自 变 
素 X， 通 过 对 其 观察 分 析 ， 来 判断 两 个 变数 之 间 的 相关 关系 。 此 外 ， 依 据 散 点 图 可 选择 函数 对 数据 点 进行 拟 合 ， 建 立 回归 模型 
下 面 继续 以 全 球 一 周 地 震 数据 为 例 ， 来 讲解 数据 散 点 图 。 


1) 将 变量 放 到 搜索 路 径 上 。 代 码 如 下 : 
> attach (earthquake) 
2) 分 析 地 震 震 深 。 代 码 如 下 : 


> summary (Depth) 
Mean 3rd Qu. Max. NA's 


Min. 1st Qu. Median 
0.10 5.80 12.15 30.82 38.00 630.70 39 
震 震 深 与 震级 的 关系 ， 如 图 5-10 所 示 。 


在 上 述 结果 中 ，Min 表 示 地 震 震 深 的 最 小 值 ，Max 表 示 最 大 值 ，Median 为 中 位 数 ，Mean 为 平均 值 。 我 们 试 着 从 下 面 的 散 点 图 中 分 析 一 下 地 
在 图 5-10 中 ，Depth 是 震 深 Magnitude 是 震级 ， 从 表面 上 看 一 周 中 Depth 和 Magnitude 之 间 没有 关系 ， 但 仔细 观察 这 个 图 ， 可 发 现 一 个 有 趣 的 结果 : 在 这 一 周 里 当 震 深 超过 300 后 ， 震 级 都 接近 5 或 


在 5 以 上 ， 而 在 300 以 内 时 ， 震 级 并 不 确定 。 
3) 对 震 深 的 直方 图 进行 分 析 。 先 来 绘制 相关 直方 图 ， 代 码 如 下 : 


>hist (Depth) 


绘制 的 图 形 如 图 5-11 所 示 。 
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震 深 与 震级 关系 的 散 点 图 


图 5-10 


R R Graphics: Device 2 (ACTIVE) = ГЕ] zi 


Histogram of Depth 


400 600 800 


Frequency 


200 


Ü 100 200 300 400 500 600 


Depth 


图 5-11 ZR EH 


观察 图 5-11 可 得 出 结论 : 这 个 星期 内 发 生 的 绝 大 部 分 地 震 的 震 深 在 100 以 内 ， 这 个 区 间 的 代表 频率 的 柱 体高 度 最 高 ， 而 发 生 最 少 的 350~ 550 段 和 250~300 段 ， 这 两 个 区 间 的 柱 体 几乎 贴近 X 轴 ， 高 度 很 


小 。 


4) 分 析 融 数据 点 的 震级 直方 图 。 为 提高 直方 图 的 表示 能 力 ， 有 时 需要 在 直方 图 中 显示 实际 的 数据 点 ， 通 过 观察 这 些 数 据点 的 数量 ， 可 分 析 数 据点 在 每 个 区 间 的 分 布 密集 程度 ， 可 通过 R 语 言 的 rug 函 数 
绘制 数据 点 。 代 码 如 下 : 


> hist (Magnitude) 
> rug (Magnitude) 


绘制 出 的 图 形 如 图 5-12 所 示 。 


仔细 观察 图 5-12 能 看 出 : 在 3~4 晨 级 区 域内 ， 数 据点 分 布 并 不 均匀 ， 在 靠近 3 的 区 域内 ， 数 据 更 为 密集 ， 数 据点 集中 分 布 在 偏向 于 3 的 区 域 ; 此 外 ， 在 5~ 6 级 震级 区 域 也 出 现 类 似 现象 ， 数 据点 偏向 于 5， 
这 说 明 3~4 级 或 5~6 级 震级 范围 内 ， 大 部 分 地 震 的 震级 不 是 非常 大 ， 偏 向 于 3 或 5。 

这 些 只 是 根据 一 个 星期 的 数据 进行 分 析 得 到 的 结果 ， 不 一 定 就 代表 真正 的 答案 。 答 案 要 通过 分 析 大 量 数 据 以 及 数据 各 个 指标 关系 ， 同 时 结合 地 球 物理 知识 的 研究 才能 得 出 。 

由 于 图 形 直观 性 很 强 ， 浅 显 且 易于 理解 ， 因 此 在 数据 分 析 中 ， 经 常 需要 绘制 图 表 和 直线 。 前 面 已 经 讲解 过 绘图 的 方法 ， 在 此 补充 一 下 画 线 方法 ， 在 R 语 言 中 使 用 lines 函 数 完成 绘制 直线 。 比 如 要 绘制 一 
个 (10, 40) 、 (20, 50). (30, 60) 的 散 点 图 ， 并 将 点 连 成 线 ， 可 如 下 编写 代码 : 


> plot(c(10,20,30),c(40,50,60)) 
> lines(c(10,20,30),c(40,50,60)) 


绘制 出 的 散 点 及 直线 如 图 5-13 所 示 。 
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5-12 ” 带 数 据点 的 震级 直方 图 
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5-13 ” 散 点 及 直线 图 


544 五 分 位 数 

分 位 数 是 描述 数据 位 置 的 一 种 方法 ， 它 将 一 个 随机 变量 的 分 布 范 围 分 为 几 个 等 份 的 数值 点 。 分 位 数 法 被 用 来 识别 某 临 界 值 ， 一 般 情况 下 可 使 用 分 位 数 (或 分 位 点 ) 描述 小 于 等 于 这 个 临界 值 的 观测 值 数 
量 占 整个 数据 中 的 某 个 具体 比率 (小 于 等 于 该 值 的 数据 为 一 给 定 的 比率 ) 。 

常用 的 分 位 数 有 中 位 数 、 四 分 位 数 、 五 分 位 数 、 十 分 位 数 、 百 分 位 数 等 ， 其 中 ， 中 位 数 将 数据 分 布 范 围 分 成 了 相等 的 两 个 部 分 。 此 外 ， 我 们 还 能 将 数据 分 布 范 围 分 成 更 小 尺寸 的 分 割 线 ， 四 分 位 数 将 一 
个 分 布 分 成 4 等 份 ， 而 五 分 位 数 将 其 分 成 5 等 份 ， 十 分 位 数 将 其 分 成 10 等 份 ， 百 分 位 数 将 其 分 成 100 等 份 等 。 

五 分 位 数 法 是 数据 分 析 的 常用 方法 ， 在 R 语 言 中 ， 可 使 用 fivenum 函 数 计算 五 分 位 数 (fivenum 函 数 会 返回 以 下 数据 : minimum, lower-hinge, median, upper-hinge, maximum) 。 下 面 用 
fivenum 函 数 对 地 震 数据 进行 分 析 。 代 码 如 下 : 





Hv 
= 
o 
Еа 
CO 
S 
9 


分 析 结 果 表 明 ， 震 级 最 小 为 1.0， 最 大 为 6.5， 中 位 数 为 1.7， 通 过 1.7 将 一 组 数据 分 为 上 下 两 组 ， 然 后 再 计算 上 下 两 组 的 中 位 数 1.3 与 2.5。 
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下 震级 的 累积 分 布 。 


1) 通过 R 语 言 的 ecdf 函 数 计算 累积 分 布 。 








»ecdf (Magnitude)-»mag ecdf 
»mag ecdf Е 
Empirical CDF 

Call: ecdf (Magnitude) 

x[1:50] = 2, Lei; 1.2, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..., 6, 6.5 






































2) 通过 plot 函 数 绘制 累积 概率 图 ， 直 观 展示 震级 累积 分 布 。 


p m] 


» plot(mag ecdf,do.points-FALSE, verticals-TRUE 











— 





绘制 出 的 图 形 如 图 5-14 所 示 。 
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图 5-14 ”震级 累积 分 布 概率 


图 5-14 的 x 轴 是 震级 ，y 轴 是 累积 分 布 概率 ， 当 震级 升 高 时 ， 累 积分 布 概率 也 随 之 提高 ， 这 个 趋势 很 正常 ， 因 为 累积 分 布 概率 是 指 小 于 或 等 于 某 个 震级 的 概率 。 比 如 : 从 图 5-14 观 察 ， 发 生地 震 的 震级 在 
3 以 内 的 概率 接近 80%， 震 级 在 2 以 内 的 概率 接近 60%。 


5.4.6 “” 核 密度 估计 
1. 核 密度 原理 


利用 前 面 所 说 的 直方 图 估计 数据 分 布 密 度 是 有 局 限 性 的 ， 因 为 数据 分 布 的 密度 函数 是 不 平滑 的 ， 它 受 子 区 间 宽 度 影 响 较 大 ， 当 数据 维 数 超过 二 维 时 就 有 局 限 。 


什么 是 密度 函数 呢 ? 连续 型 随机 变量 的 概率 密度 函数 (不 至 于 混淆 时 可 简称 为 密度 函数 ) 是 一 个 描述 这 个 随机 变量 的 输出 值 ， 在 某 个 确定 的 取 值 点 附近 的 可 能 性 的 函数 ， 而 随机 变量 落 在 某 个 区 域 之 内 


的 概率 为 概率 密度 函数 在 这 个 区 域 上 的 积分 ， 当 概率 密度 函数 存在 的 时 候 ， 累 积分 布 函数 是 概率 密度 函数 的 积分 。 


如 何 由 给 定 样本 点 集合 求解 随机 变量 的 分 布 密度 函数 ”解决 这 一 问题 的 方法 包括 参数 估计 和 非 参数 估计 。 参 数 估计 中 常用 的 是 参数 回归 分 析 ， 它 假定 数据 分 布 符合 某 种 特定 的 性 态 ， 如 线性 、 可 化 线性 
或 指数 性 态 等 ， 然 后 确定 回归 模型 的 未 知 参数 。 但 参数 模型 的 这 种 基本 假定 与 实际 的 物理 模型 之 间 常 常人 存在 较 大 的 差距 ， 于 是 Rosenblatt 和 Parzen 提 出 了 核 密度 估计 方法 ， 它 可 估计 未 知 的 密度 函数 ， 是 非 
参数 估计 方法 之 一 。 


假设 样本 数据 值 在 D 维 空间 服从 一 个 未 知 的 概率 密度 函数 ， 那 么 在 区 域 R 内 的 概率 为 : 


Р= | кр(х)ӣх 


上 式 中 ，P 是 每 个 样本 数据 点 落 入 区 域 R 的 概率 ， 假 设 在 N 个 样本 数据 点 中 ， 有 K 个 落 入 了 区 域 R， 那 么 就 应 该 服从 二 项 分 布 。 公 式 如 下 : 


Bin(KIN,P)= P(1-P)™ 


K id i m 
在 N 的 样本 数据 很 大 时 ，K 约 等 于 NxP。 而 男 一 方面 ， 假 设 区 域 R 足 够 小 ， 那 么 P 约 等 于 p09xV 〈V 为 区 域 R 的 空间 ) 。 


于 是 ， 结 合 两 个 不 等 式 子 可 得 





р(х)= 一 ( 5-1) 


根据 上 式 ， 来 估算 p(x) 就 有 两 种 方式 : 第 一 ,，K 不 变 ， 通 过 决定 区 域 V 的 大 小 来 估算 密度 函数 ， 采 用 K-nearer-neighbour 方 法 ; 第 二 ，V 不 变 ， 通 过 决定 K 的 大 小 来 估算 密度 函数 ， 采 用 kernel 方 法 。 这 
里 选择 第 二 种 方式 ， 假 设 区 域 R 是 一 个 以 x 为 中 心 、 边 长 为 h 的 极 小 立方 体 (也 就 是 V 不 变 ) ， 定 义 kernel 函 数 (数据 维 数 为 D 维 ， 当 样本 数据 点 落 入 小 立方 体 时 ， 函 数值 为 1， 其 他 情况 下 为 0) 的 公式 如 下 : 


1/2, i=l, +, D 





k(u)- 
0, 其 他 


落 入 立方 体 数据 点 的 总 个 数 K 就 可 以 表示 为 : 


根据 式 (5-1) ， 把 式 (5-2) 代入 式 (5-1) 中 ,可 得 


lvl 
ро) У [m 
| h h 


ІХ nal 


R 语 言 可 使 用 density 函 数 进行 核 密度 估计 ，density 函 数 默认 情况 下 在 512 个 点 上 估计 密度 值 。 下 面 就 用 它 来 计算 一 下 地 震 数据 中 的 震级 核 密度 。 首 先 ， 指 定 hist 范 数 的 prob 参 数 为 TRUE， 绘 制 核 密 度 直 
方 图 ; 然后 通过 lines 函 数 ， 绘 制 核 密度 曲线 。 代 码 如 下 : 


> hist (Magnitude, prob-TRUE) 
» lines (density (Magnitude)) 





绘制 出 的 核 密度 如 图 5-15 所 示 ， 图 中 曲线 就 是 核 密度 曲线 。 
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图 5-15 ”震级 核 密度 


5.5 ”数据 分 布 分 析 
这 里 以 老年 常见 病 数据 为 例 ， 来 讲解 数据 分 布 的 分 析 。 如 表 5-3 所 示 是 一 些 老年 常见 病 数据 。 
表 5-3 老年 常见 病 数 据 
年 龄 疾病 名 称 急 腹 症 肿瘤 
71 ШАКЕЛ 1 
75 ПИШ °° | 





E 疾病 名 称 IT — 
77 胆管 恶性 肿瘤 m — | 





1) 在 R 中 加 载 数据 ， 然 后 查看 老年 病 的 老人 年 龄 分 布 情况 及 概率 密度 分 布 ， 绘 制 年 龄 直方 图 。 代 码 如 下 : 








> read.table ("aged patients.csv",header-TRUE, sep-",")-»agedpatients 
> hist (agedpatientsS4FZ7) 


绘制 出 的 年 龄 分 布 直方 图 如 图 5-16 所 示 。 
2) 对 年 龄 进行 核 密度 估计 ， 并 绘制 核 密度 曲线 。 


> hist (agedpatients$ 年 龄 ,prob=TRUE) 
> lines (density (адедраёіепіѕ5 %+#%) ) 








绘制 出 的 核 密度 曲线 ， 如 图 5-17 所 示 。 
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图 5-16 “年龄 分 布 直方 图 


Histogram of agedpatients$4F # 





(O 
- | 
т 
PEE. 
uu 
c 
C3 
ч 
Ge 
k. - | 
" E | 
A ug 
" | 
e 
C | 
-— 
ae 
Ce 
| ^" 
_ —. 
e ПЕЕ 
© | 
C) 
60 65 TO 15 80 85 90 
agedpatients$ 4E 5 
图 5-17 “年 龄 的 核 密度 曲线 
3) 通过 min 和 max 两 个 国 数 分 析 患 者 的 最 小 年 龄 和 最 大 年 龄 ， 通 过 函数 分 析 年 龄 的 平均 值 ， var 函数 计算 年 龄 的 方差 。 





> min (agedpatients$4FA) 
[1] 60 
> max (agedpatientsS- š) 
[1] 90 











> mean (agedpatients$ 年 龄 ) 
[1] 69.09839 
> var (agedpatients$ 年 龄 ) 
[1] 38.60801 














由 上 述 分 析 可 得 出 一 个 结论 : 63~72 岁 这 个 阶段 的 老人 必须 要 注意 身体 ， 坚 持 运 动 ， 保 持 健康 ， 这 个 年 龄 段 是 急 腹 症 和 肿瘤 两 种 老年 病 的 高 友 期 ， 发 生 概率 较 大 。 从 60 到 90 岁 的 老人 都 有 可 能 患 上 这 两 
种 老年 病 ， 患 者 的 平均 年 龄 是 69 岁 。 标 准 差 比较 大 ， 看 来 这 两 种 老年 病 在 老人 的 各 个 年 龄 段 中 发 生得 比较 普遍 。 


Д) 按 年 龄 分 类 汇总 肿瘤 和 和 急 腹 症 的 数量 。 代 码 如 下 : 


> diee di в 

> tapply (肿瘤 , 年龄 , sum) 

60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 87 88 90 
19 26 26 28 21 35 37 22 21 23 29 26 31 16 19 121319 8 5 4 3 7 2 1 1 0 3 1 

> tapply (SJ E, 年龄 , sum) 
60 61 62 63 64 65 66 67 68 69 70 71 72 713 74 75 76 77 78 79 80 81 82 83 84 85 87 88 90 
2.002 001 0 2 4 0.3 12 2.02. 0101 0 2 О Ü 












































分 年 龄 统计 肿瘤 患者 的 数量 。 代 码 如 下 : 








> table (factor (cut (agedpatientsS$ 年 龄 [agedpatientsS$ 肿 瘤 ==1]，5) ) ) 
(60,66] (66,72] (72,78] (78,84] (84,90] 
155 158 118 22 5 








分 年 龄 统计 急 腹 症 患 者 的 数量 。 代 码 如 下 : 











> table (factor (cut (agedpatientsS 年 龄 [ageqpatientsS 和 急 腹 症 ==1]，5) )) 
(60,65.4] (65.4,70.8] (70.8,76.2] (76.2,81.6] (81.6,87] 
4 8 8 5 4 


上 述 分 析 结 果 表 明 : 急 腹 症 患 者 在 65 岁 到 77 岁 之 间 发 病 率 较 高 ， 其 中 70 岁 时 发 病 率 最 高 ， 而 肿瘤 患者 在 60 岁 到 72 岁 之 间 发 病 率 较 高 ， 其 中 69 岁 时 发 病 率 最 高 。 


56 小结 


本 章 对 统计 学 基础 进行 曾 述 ， 介 绍 了 数据 分 析 的 概念 、 发 展 以 及 需要 的 基础 知识 ， 同 时 从 线性 回归 和 非 线性 回归 两 个 方面 讲述 了 数据 分 析 基 本 方法 
布 情况 分 析 的 方法 。 





回归 分 析 ， 并 以 实例 说 明了 用 R 语 言 进行 数据 分 


统计 分 析 在 机 器 学 习 和 数据 分 析 中 有 着 举足轻重 的 地 位 。 李 开 复 在 攻读 博士 期 间 主攻 语音 识别 。 他 的 导师 坚持 的 方向 是 发 展 和 完善 专家 系统 。 而 他 最 终 发 现 ， 专 家 系统 是 有 严重 局 限 性 的 ， 无 法 延伸 到 
做 不 特定 语 者 的 语音 识别 。 他 认为 有 数据 支持 的 统计 模式 是 唯一 的 希望 ， 于 是 改 用 统计 的 方法 来 进行 语音 识别 。3 年 中 ， 他 用 统计 的 方法 把 语音 识别 的 准确 率 从 40% 和 逐步 提高 到 80%、90%， 最 后 达到 了 
96%，《 商 业 周 刊 》 把 他 的 发 明 选 为 1988 年 最 重要 的 科学 发 明 。 他 用 统计 学 方法 做 出 的 语音 识别 博士 论文 至 今 还 被 用 作 语音 识别 产品 的 理论 基础 。 


Google 在 2006 年 面 对 广大 用 户 推出 了 关键 词 统计 分 析 系 统 : Google Trends， 链 接 为 : http://www.google.com/trends。 这 是 一 个 非常 有 意思 和 价值 的 产品 ， 有 兴趣 的 读者 不 妨 一 试 。 下 面 是 利用 这 
个 系统 对 “machine learning” 这 个 搜索 关键 词 进行 的 统计 分 析 ， 从 图 5-18 和 图 5-19 中 可 以 明显 看 出 ， 机 器 学 习 越 来 越 受 人 关注 ， 尤 其 是 从 2011 年 年 底 开 始 ， 人 们 对 机 器 学 习 的 热衷 度 在 持续 上 升 ， 因 为 
这 段 时 期 的 曲线 呈 稳 步 上 扬 趋 势 。 


machine learning + 添加 字 词 
搜索 字 词 чаа 








热度 随时 间 变 化 的 趋势 о) 头条 Oie 





2009 
5-18 “机 器 学 习 ” 在 Google Trends 中 的 搜索 结果 

i ] 上 升 
the learning machine google machine learning 
pattern recognition — machine learning python 
machine learning pdf machine learning stanford 
machine learning algorithms | machine learning pdf 
data mining online machine learning 


machine learning stanford pattern recognition 


machine learning classification machine learning techniques 





图 5-19 “机 器 学 习 ” 在 Google Trends 中 的 搜索 结果 


1. 本 章 中 介绍 了 用 R 语 言 进行 回归 分 析 的 方法 。 请 对 下 列 几 组 数据 进行 回归 分 析 。 

(1) x=[2, 5, 8, 9, 12, 15], y=[18, 52, 78, 101, 125, 148] 

(2) x=[2, 5, 8, 9, 12, 15], y=[5, 120, 502, 739, 1708, 3415] 

Quen ванадан, Rm EAS, уяў йу—хх20+ехр(х/5), 


2. 在 Google 关 键 词 统计 分 析 中 搜索 “机 器 学 习 ” 的 中 文 关键 词 ， 摘 述 人 们 对 该 关键 词 兴趣 的 发 展 趋 势 ， 目 前 机 器 学 习 的 哪些 分 支 领域 正在 成 为 人 们 关注 的 热点 。 


3. 下 载 本 书 例子 中 的 美国 地 震 台 数据 earthquakes.csv， 分 析 2013.3~2013.4 期 间 的 数据 ， 分 震级 统计 这 段 时 期 全 球 发 生 的 地 震 ， 同 时 做 出 这 段 时 间 的 震 深 与 震级 散 点 图 ， 计 算 震 级 的 累积 分 布 ， 并 显示 
累积 分 布 图 。 


第 6 章 ” 摘 述 性 分 析 案 例 


本 章 将 以 R 语 言 为 分 析 工 具 对 描述 性 分 析 案 例 进行 剖析 ， 对 于 其 中 涉及 的 统计 分 析 知 识 也 会 做 简单 介绍 ， 请 各 位 读者 按 准 备 篇 的 指导 将 R 语 言 计算 平台 搭建 好 .。 


61 数据 图 形 化 案例 解析 


数据 是 事实 ， 也 称 观 测 值 ， 是 实验 、 测 量 、 观 察 、 调 查 等 活动 的 结果 ， 常 以 数量 的 形式 给 出 。 数 据 分 析 的 目的 是 把 隐没 在 一 大 批 看 似 杂乱 无 章 的 数据 中 的 有 用 信息 集中 、 萃 取 和 提炼 出 来 ， 以 找 出 所 研 
究 对 象 的 内 在 规律 。 


6.1.1 点 图 


下 面 以 2010 年 全 国 各 行业 就 业 调 查 数据 (部 分 数据 如 表 6-1 所 示 ， 完 整数 据 在 本 书 下 载 包 中 ) 为 依据 ， 以 点 图 分 析 为 手段 ， 剖 析 电 子 行 业 劳动 报酬 水 平 。 


表 6-1 全 国 各 行业 就 业 调 查 部 分 数据 
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读 入 如 表 6-1 所 示 的 数据 文件 。 代 码 如 下 : 








> read.table("youxiangz.csv",,header-TRUE, sep-", 





) ->jiuye 


分 析 行 业 报酬 水 平 ， 以 电子 行业 的 劳动 报酬 为 例 进行 讲解 ， 主 要 步骤 如 下 。 


1) 从 数据 集中 筛选 电子 行业 的 劳动 报酬 。 代 码 如 下 : 


> jiuye$ 行 业 名 称 [grepl ("电子 ",jiuye$ 行 业 名 称 ) ] ->jyhy 
> jiuye$ 平 均 劳 动 报酬 [grepl ("电子 ",jiuye$ 行 业 名 称 ) ] ->jy9gz 
> names (jygz) <-jyhy 


2) 绘制 电子 行业 薪水 点 图 ， 如 图 6-1 所 示 。 从 图 6-1 中 可 清楚 地 看 到 7 个 电子 行业 的 薪水 分 布 情况 。 可 将 图 6-1 分 为 若干 行 ， 每 一 行 代表 一 个 行业 ， 点 在 每 行 的 不 同位 置 代 表 不 同 的 报酬 ， 所 有 行 的 数值 
遵循 同一 刻度 (刻度 尺 在 点 图 的 最 下 方 ， 从 40000 到 120000 分 成 4 个 区 域 ) 。 


3) 找到 薪水 最 高 、 最 低 的 行业 。 首 先 找 到 图 6-1 中 相应 行业 代表 的 行 ， 然 后 在 该 行 找到 由 点 代表 的 刻度 值 ( 点 在 某 行 的 位 置 ) ， 最 后 在 刻度 尺 中 找到 相应 数值 ， 读 取 数 值 。 很 明显 ,代表 “电子 计算 机 
制造 ”行业 报酬 的 点 在 所 有 行 中 最 贴近 右 端 ， 属 于 薪水 最 高 的 行业 ， 而 “家 用 电器 及 电子 产品 专门 零售 ”行业 的 数值 在 最 左 端 ， 属 于 电子 行业 中 薪水 最 低 的 行业 。 


> dotchart (jygz) 





机 械 设 备 五 金 交 电 及 电子 产品 批发 
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电子 计算 机 制造 


通信 设备 计算 机 及 其 他 电子 设备 制造 业 
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图 6-1 ”电子 行业 薪水 点 图 
6.1.2 ЖЕЕ 


下 面 以 饼 图 和 条 形 图 为 分 析 手 段 ， 对 中 介 行 业 的 平均 劳动 报酬 进行 剖析 。 


1) 以 条 形 图 来 表示 平均 劳动 报酬 。 代 码 如 下 : 





> JiuyeS$ 平 均 劳 动 报酬 [grepl ("中 介 ",jiuye$ 行 业 名 称 ) ] ->jygz 
> jiuye$ 行 业 名 称 [grepl ("中 介 ",jiuye$ 行 业 名 称 ) ] ->jyhy 

> names (jygz) <-jyhy 

> barplot (jygz, horiz = TRUE) 








绘制 结果 如 图 6-2 所 示 。 
从 图 6-2 可 明显 观察 到 ，“ 科 技 中 介 服 务 ” 行 业 的 平均 劳动 报酬 位 居 第 一 ，“ 职 业 中 介 服 务 ”位 居 最 后 。 


2) 除了 条 形 图 ， 还 可 以 用 饼 图 分 析 平 均 劳动 报酬 。 代 码 如 下 : 





> pie(jygz) 





绘制 结果 如 图 6-3 所 示 。 


SW dy ТЫН SERE cos sd 





图 6-2 ”中 介 行 业 的 平均 劳动 报酬 条 形 图 


房地产 中 介 服 务 


职业 中 介 服 务 


科技 中 介 服 务 





图 6-3 ”中 介 行 业 的 平均 劳动 报酬 饼 图 


观察 图 6-3， 代 表 “ 科 技 中 介 服 务 ” 的 面积 所 占 比 重 最 大 ， 因 此 属于 平均 劳动 报酬 最 高 的 中 介 服 务 行业 。 


6.1.3” 茎 叶 图 和 箱 线 图 


本 节 将 要 讲解 的 荃 叶 图 和 箱 线 图 ， 可 能 大 家 平时 接触 得 比较 少 ， 但 在 数据 分 析 中 经 常用 到 。 茎 叶 图 和 箱 线 图 不 同 于 前 面 的 图 表 ， 表 面 看 上 去 比较 抽象 ， 一 旦 掌握 了 读 图 的 方法 后 ， 会 发 现 它们 表现 数据 


茎 叶 图 又 称 “ 校 叶 图 ”， 它 的 思路 是 将 数组 中 的 数 按 位 数 进行 比较 ， 然 后 将 数 的 大 小 基本 不 变 或 变化 不 大 的 位 作为 一 个 主干 ， 并 将 变化 大 的 位 的 数 作 为 分 枝 ， 列 在 主干 的 后 面 ， 这 样 就 可 以 清楚 地 看 到 
每 个 主干 后 面 有 几 个 数 ， 每 个 数 具体 是 多 少 。 下 面 以 产品 单位 成 本 数据 为 例 ， 分 析 它 的 茎 叶 图 ， 如 表 6-2 所 示 。 


表 6-2 产品 单位 成 本 数据 


序号 单位 成 本 (лга) 
346.23 
343.34 
327.46 
313.27 
310.75 
307.61 
314.56 
305.72 
310.82 


о бо — QN A U N m 





在 R 语 言 中 ， 使 用 stem 函 数 进 行 茎 叶 图 分 析 ， 其 格式 为 : 


> stem(Z €, scale-KJ£, width-/4B] # Ж, atom- ZZ) 


首 移 调用 read.table 方 法 读 取 数 据 文 件 ， 然 后 调用 stem 函 数 绘制 鞋 叶 图 。 代 码 如 下 : 


>read. table ("cp.csv",,header-TRUE, sep-",")-»cp 
> stem(cp$ 单 机 成 本 .元 . 台 .,scale=2) 
The decimal point is 1 digit(s) to the right of the | 











stem 国 数 的 scale 参 数 为 2， 表 示 将 图 的 长 度 设置 为 2。stem 函 数 生成 的 成 本 数据 蔡 叶 图 如 下 : 





29 | 68 

30 | 1356778 
34 | 1135 

32 | 7 

33 | 

34 | 36 


茎 叶 图 的 每 一 行 表示 每 个 茎 与 它 的 叶子 ，“|” 前 面 是 茎 ,而 “|” 后 面 是 叶 。 以 最 后 一 行 “34|36” 为 例 ，“|” 前 面 的 “34” 是 茎 后面 的 “36” 是 叶 ， 这 行 的 意思 是 : 百 位 数 为 3， 十 位 数 为 4 的 数据 有 


两 个 ,分 别 是 : 345 和 346。 


从 茎 叶 图 中 可 看 出 ， 单 位 成 本 主要 集中 在 300~ 309 元 ， 因 为 代表 茎 30 的 行 拥有 的 叶子 最 多 。 此 外 ， 茎 33 的 行 没有 一 个 叶子 ， 这 说 明 没 有 一 件 产 品 的 单位 成 本 在 330~ 339 元 这 个 范围 内 。 


2. 箱 线 图 分 析 


箱 形 图 提供 了 一 种 只 用 5 个 点 来 对 数据 集 做 简单 总 结 的 方式 ， 这 5 个 点 包括 最 大 值 、 最 小 值 、 中 位 数 、 下 四 分 位 数 和 上 四 分 位 数 。 箱 形 图 中 最 重要 的 内 容 是 对 相关 统计 点 的 计算 ， 


分 位 计算 方法 进行 实现 。 


网 


以 2010 年 全 国 就 业 调 查 数 据 为 例 ， 绘 制 “平均 教育 经 费 ”的 箱 形 图 并 进行 分 析 。R 语 言 中 ， 实 现 箱 线 图 分 析 的 相应 函数 为 boxplot。 下 面 的 代码 绘制 平均 教育 经 费 的 箱 形 图 。 


> boxplot (jiuye$ 平 均 教 育 经 党 ) 


如 图 6-4 所 示 的 箱 形 图 将 平均 教育 经 费 很 形象 地 分 为 中 心 、 延 伸 以 及 分 部 状态 的 全 部 范围 。 中 间 那 个 箱子 的 项 部 是 上 四 分 位 数 ， 底 部 是 下 四 分 位 数 ， 中 间 的 粗 线 是 中 位 数位 置 ， 


分 表示 数据 的 散布 范围 。 另 外 在 散布 范围 外 还 有 一 些小 圆 点 ， 那 些 是 异常 点 ， 可 见 平均 教育 经 费 有 一 些 特 大 值 ， 最 大 的 异常 值 超过 了 12000。 
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图 6-4 “平均 教育 经 费 的 箱 形 图 


除了 箱 形 图 外 ， 在 R 语 言 中 ， 还 可 以 使 用 fivenum 函 数 来 分 析 前 面 说 的 5 个 点 的 概要 。 代 码 如 下 : 





> fiven (cp$ 单 机 成 本 .元 . 侣 .) 


相关 统计 点 可 以 通过 百 


箱 体 由 上 下 伸 出 的 垂直 部 





分 析 结 果 如 下 ， 它 们 分 别 是 最 小 值 、 下 四 分 位 数 、 中 位 数 、 上 四 分 位 数 、 最 大 值 。 


[1] 296.210 304.275 307.225 313.915 346.230 


62 ”数据 分 布 趋 为 案例 解析 
本 节 继续 以 产品 成 本 和 全 国 就 业 调查 数据 为 例 ， 剖 析 这 两 类 数据 的 分 布 趋势 
6.2.1 Зі 


下 面 使 用 R 语 言 的 mean 函 数 统计 就 业 调查 数据 中 的 “平均 劳动 报酬 、”。 代 码 如 下 : 


> mean (jiuye[[" 平 均 劳 动 报酬 "] ] ) 
[1] 42365.36 


同时 ， 还 可 以 统计 一 下 “平均 劳动 报酬 ”和 “平均 教育 经 费 ”。 代 码 如 下 : 


> сріпа (jiuye[[" 平 均 劳动 报酬 "] ] ,jiuye[[" 平 均 教育 经 费 "] ] ) 
> apply (jiuyeinfo,2,mean) 
[1] 42365.365 391.035 





6.2.2 ”加 权 平 均值 


加 权 平 均 数 与 算术 平均 数 类 似 ， 但 数据 集中 的 每 个 数据 对 于 平均 数 的 贡献 并 不 是 相等 的 ， 有 些 数据 要 比 其 他 的 数据 更 加 重要 。 因 此 ， 人 在 加 权 平 均 法 中 ， 每 个 数据 都 有 其 相对 应 的 权重 。 


以 产品 成 本 数据 为 例 ， 剖 析 加 权 平 均值 。 首 先 读 取 产 品 成 本 数据 。 代 码 如 下 : 





> read.table("cp.csv",,header-TRUE, ѕзер=",") -»cp 












































> Cp 
序号 产量 т. ё 单机 成 本 .元 

1 1 4300 ш 
2 2 4004 343.34 
3 3 4300 327.46 
4 4 D016 313.27 
5 5 551] 310.75 
6 6 5648 307.61 
7 7 5876 314.56 
8 8 665 305.72 
9 9 6024 310.82 
10 10 6194 306.83 
11 11 7558 305.1 

12 12 738 300.7 

13 13 6950 306.84 
14 14 647 303.44 
15 I5 6354 298.03 
16 16 8000 296.21 











然后 ， 求 产品 平均 单位 成 本 。 代 码 如 下 : 


> weighted.mean (cpS$ 单 机 成 本 .元 . 台 . ,Cp$ 产 量 . 合 .) 
[1] 309.9866 


6.2.3 ”数据 排序 


在 R 语 言 中 ， 使 用 sort 函 数 进行 数据 排序 。 比 如 ， 要 对 “平均 教育 经 费 ”进行 排 序 ， 可 采用 如 下 代码 : 


> sort (jiuyeS$ 平 均 教 育 经 费 ) 
0 







































































[1] 0 0 2 2 2 6 7 7 8 10 13 
13 27 30 3 31 31 32 35 37 38 42 42 44 
25 46 50 5 95 55 62 63 65 66 66 67 71 
37 12 12 [Б 15 16 80 89 92 93 93 95 95 
49 00 00 00 00 00 05 109 10 11 15 18 9 
61 25 36 38 13 1 15 16 17 17 19 19 97 
73 59 61 61 62 62 166 68 68 68 12 7] 7] 
85 82 84 86 88 90 196 196 96 200 20 206 210 
97 210 212 212 221 224 225 230 230 241 24 247 247 

































































[181] 818 830 832 840 840 858 890 890 890 986 995 1096 
[193] 1131 1198 1255 1469 1553 2087 2564 120645 














排序 后 ， 可 以 初步 发 现 ， 这 些 行业 的 教育 经 费 中 ， 最 大 的 有 12645， 而 最 小 的 除 0 之 外 还 有 2， 不 同行 业 之 间 的 教育 经 费 差 异 很 大 。 


也 可 以 改变 排序 顺序 ， 通 过 指定 decreasing 参 数 为 TRUE， 实 现 按 从 大 到 小 的 顺序 排列 。 代 码 如 下 : 


> sort (jiuye$ 平 均 教 育 经 费 , decreasing=TRUE) 
[1] 12645 2564 2087 1553 1469 1255 1198 1131 1096 995 986 890 
[13] 890 890 858 840 840 832 830 818 782 768 153 138 
[25] 722 692 682 679 645 582 571 563 557 555 554 551 







































































































































































[37 551 535 524 522 502 86 70 66 61 155 15 143 
[49 136 131 123 122 122 16 09 Ü5 02 396 389 389 
[61 374 374 371 369 367 348 342 341 340 337 332 330 
[73 317 315 314 308 306 305 304 303 299 298 295 295 
[85 282 277 276 276 267 267 260 258 247 247 2 241 
[97 230 230 225 224 221 212 212 210 210 206 201 200 
[109 96 96 96 190 88 86 184 82 17 17 172 68 
[121 68 68 66 62 62 61 61 J9 57 9 9 7 
[133 47 46 45 44 43 38 36 25 9 18 15 11 
[145 10 09 05 00 00 00 00 00 95 95 93 93 
[157 92 89 80 16 15 15 12 12 11 67 66 66 
[169 65 63 62 95 55 5] 50 16 14 12 12 38 
[181 37 35 32 31 31 3 30 27 13 10 8 7 
[193 7 6 2 2 2 0 0 0 
> 


624 中 位 数 


中 位 数 比 平均 值 更 有 稳健 性 ， 因 为 它 不 受 偏 态 分 布 的 影响 。 代 码 如 下 : 


> median (jiuye$ 平 均 教育 经 费 )# 中 位 数 
[1] — 5 

> mean (jiuyeS$ 平 均 教 育 经 费 )# 平 均 数 
[1] 391.035 





教育 经 费 的 中 位 数 222.5 与 它 的 平均 值 391.035 有 一 定 差 距 ， 这 说 明 平 均 教育 经 费 不 是 对 称 分 布 的 。 
6.2.5 =, З= 


极 差 是 一 组 数据 中 最 大 数据 与 最 小 数据 的 差 ， 用 来 刻画 一 组 数据 的 离散 程度 ， 反 映 变量 分 布 的 变 


变异 范围 和 离散 幅度 ， 在 样本 总 体 中 任何 两 个 单位 的 标准 值 之 差 都 不 能 超过 极 差 。 同 时 ， 它 还 能 体现 一 组 
数据 波动 的 范围 。 下 面 的 代码 计算 “平均 教育 经 费 ” 的 极 差 。 


> max (jiuyeSs 平 均 教育 经 费 ) -min (jiuye$ 平 均 教 育 经 费 
[1] 12645 
相对 极 差 而 言 ， 四 分 位 数 间距 (上 四 分 位 数 与 下 四 分 位 数 之 差 ) 更 稳定 ， 它 不 受 


不 受 两 端 个 别 极 大 值 或 极 小 值 的 影响 ， 可 理解 为 中 间 50% 观 察 值 的 极 差 ， 因 此 又 被 称 为 半 极 差 。 
四 分 位 数 是 统计 学 中 分 位 数 的 一 种 ， 即 把 所 有 数值 由 小 到 大 排列 并 分 成 4 等 份 ， 处 于 3 个 分 隔 点 位 置 的 得 分 


就 是 四 分 位 数 ， 下 四 分 位 数 是 所 有 数据 由 小 到 大 排列 后 处 于 25% 位 置 的 数 ， 上 四 分 位 数 是 所 有 
数据 由 小 到 大 排列 后 处 于 75% 位 置 的 数 。 四 分 位 数 在 R 语 言 中 用 quantile 函 数 求解 ， 下 面 的 代码 计算 了 


“平均 教育 经 费 ” 和 “平均 劳动 报酬 ”的 四 分 位 数 。 


> quantile S al d 经 
0$ 25 50% D 100$ 

0.0 100.0 222. 5 425.0 12645.0 

> quantile Dei dA ш 
0% 








75% 100% 
13624.0 ШЫ | — e in К 51762.0 150098.0 





变异 度 反 映 数 据 围绕 中 心 位 的 离散 度 ， 四 分 位 数 间距 数值 越 大 ， 变 寞 度 越 大 ， 反 之 ， 变 异 度 越 小 。 在 R 语 言 中 使 用 IQR 函 数 求解 四 分 位 数 间距 ， 下 面 的 代码 计算 “平均 教育 经 费 ” 和 





“平均 劳动 报酬 ”的 
四 分 位 数 间距 。 
> ІОВ (jiuyeS$ 平 均 教 育 经 费 
[1] 325 
» IQR(j ее 劳动 报酬 ) 
[1] 23154 








从 执行 结果 来 看 ，“ 平 均 教育 经 费 ” 相 比 “ 平 均 劳动 报酬 ”变异 度 小 很 多 。 
626 J£ 


方差 是 重要 的 数据 分 散 程 度 度量 指标 。 其 计算 公式 为 : 


在 R 语 言 中 ， 可 使 用 var 函 数 统计 方差 。 下 面 的 代码 计算 “平均 教育 经 费 ” 的 方差 。 


> var (jiuyeS$ 平 均 教育 经 费 
[1] 883263.6 


6.2.7 ”标准 差 


标准 差 也 是 重要 的 数据 分 散 程 度 度量 指标 。 其 计算 公式 为 : 


s= [s = 





在 R 语 言 中 使 用 sd 函数 统计 标准 差 。 下 面 的 代码 计算 “平均 教育 经 费 ” 的 标准 差 。 


> sd (jiuye$ 平 均 教 育 经 费 ) 
[1] 939.821 


6.2.8 ”变异 系数 、 样 本 平方 和 


1. 变 异 系数 


变异 系数 ， 又 称 “ 离 散 系数 ” ， 是 概率 分 布 离散 程度 的 一 个 归 一 化 量度 ， 其 定义 为 标准 差 与 平均 值 之 比 。 变 异 系数 的 计算 公式 为 : 


С.у = x 100% 


上 式 中 S 表 示 标 准 差 ， x 表示 平均 值 。 变 异 系数 越 小 ， 变 异 程 度 越 小 ;， 反 之， 变异 系数 越 大 ， 变 异 程度 越 大 。 下 面 的 代码 计算 了 “平均 教育 经 费 ” 的 变异 系数 。 


> sd (jiuye$ 平 均 教 育 经 费 ) /mean (jiuyeS$ 平 均 教育 经 费 ) 


[1] 2.403419 





再 看 看 “平均 劳动 报酬 ”的 变异 系数 。 代 码 如 下 : 

> sq (jiuye$ 平 均 劳 动 报酬 ) /mean (jiuye$ 平 均 劳动 报酬 ) 

[1] 0.4916487 

可 见 ，“ 平 均 教 育 经 费 ” 相 对 于 “平均 劳动 报酬 " 
2. 样 本 平方 和 


样本 校正 平方 和 (CSS) 为 样本 与 均值 差 的 平方 求 和 。 下 面 的 代码 计算 


> sum( (jiuye$ 平 均 教 育 经 费 -mean (jiuye$ 平 均 教育 经 费 ) 


[1] 175769451 


样本 未 校正 平方 和 (USS) 为 样本 值 平 方 的 求 和 。 下 面 的 代码 计算 了 


> sm (jiuyeS 平 均 教育 经 费 ^2) 
[1] 206351125 


6.2.9 MEZA. IFRA% 


1. 偏 度 系数 


在 统计 学 中 ， 偏 度 系数 是 用 于 衡量 实数 随机 变量 概率 
数据 偏 度 系数 为 正 ， 左 侧 更 分 散 的 数据 偏 度 系 数 为 负 。 


偏 度 系数 的 计算 公式 为 : 


R 语 言 中 ， 可 用 如 下 代码 计算 


> mean (jiuyeS$ 平 均 教 育 经 费 ) ->mymean 
> sd GiuyeS- AC 229) E 

> length (jiuyeS$ 平 均 教育 经 费 ) -»myn 
> jiuye$4342C 8 2 qp ->x 

> myn/ ( (myn-1) 
[1] 11.36649 


峰 度 系数 衡量 实数 随机 变量 概率 
峰 度 系数 为 正 ， 两 侧 的 极 ; 


峰 度 系数 计算 公式 为 : 


K= 


在 R 语 言 中 ， 可 用 如 下 代码 计算 “平均 教育 经 费 
> mean (jiuyeS$ 平 均 教 育 经费 ) ->mymean 


> sd (jipyeg 平 均 教育 经 费 ) 
> length (jiuye$ 平 均 教育 经 费 ) ->myn 
> jiuye$ 平 均 教育 经 费 ->x 


>( (myn* (myn*1) ) / ( (myn-1) * (myn-2) 
[1] 146.8809 
6.3 ”正人 态 分 布 案例 解析 
6.3.1 正 态 分 布 国 数 


对 于 一 维 实 随机 变量 X， 设 它 的 累积 分 布 函 关 


一 个 


那么 X 是 一 个 连续 型 随机 变量 ， 并 且 fx(x) 是 


累积 分 布 函 


正 态 分 布 的 累积 分 布 函数 为 : 


分 布 的 峰 态 ， 峰 度 高 就 
肖 数 据 较 多 ， 除 此 以 外 ， 峰 度 系 数 为 负 ， 两 侧 的 极 ; 


" 
` 


* (myn-3) ) *sum ( (x-mymean) ^4) /mysd^4- 


数 ， 又 叫 累计 分 布 函 数 ， 是 概率 密度 函 


分 布 更 分 散 ， 因 为 它 的 变异 系数 更 高 。 


"平均 教育 经 费 " 


)^2) 


分 布 的 不 对 称 性 的 。 偏 度 的 值 可 以 为 正 ， 可 以 为 负 ， 是 


ú n bs E 
^ (n-D(-2)8 2/63 


“平均 教育 经 费 ” 的 偏 度 系数 。 


* (myn-2) ) *sum ( (x-mymean) ^3) /mysd^3 


出 数据 较 少 。 


п(п+1) 
(n-1)(n-2)(n-3)S* 


是 Fx(X)。 如 果 存 在 可 测 函 数 fx(x)， 满 足 : 
V — oo <a< о , Fx(a)=| 


数 的 积分 ， 能 完整 地 描述 一 个 实 随机 变量 X 的 概率 


Е(х)=Р(Х x 


意味 着 方差 增 大 是 由 低频 度 的 大 于 或 小 于 平均 值 的 极端 差 值 引起 的 。 当 数据 分 布 为 正 态 


> œx- 


(3* (myn-1) ^2) / ( (myn-2) * 


分 布 情况 。 对 于 所 有 实数 Xx， 


的 样本 校正 平方 和 。 


"平均 教育 经 费 ”的 样本 未 校正 平方 和 。 


是 无 量 纲 的 量 ， 其 取 值 通常 为 -3~+3， 其 绝对 值 越 大 ， 表 明 偏 斜 程度 越 大 。 均 值 右 侧 更 分 散 的 


- 


分 布 时 ， 峰 度 系 数 近似 为 0; 当 数据 分 布 较 正 态 分 布 的 尾部 


3n-1y 
(n-2)(n-3) 


(myn-3) ) ) 


l FOA 


昧 积分 布 函 数 的 定义 如 下 : 


х) 


其 中 ，H 是 均值 ，o 是 方差 。 


正 态 分 布 的 概率 密度 曲线 通常 如 图 6-5 所 示 。 
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则 称 为 负 偏 态 分 


则 称 为 正 偏 态 分 布 ; 如 果 集 中 位 置 偏向 数值 大 的 一 侧 ， 


若 集中 位 置 偏向 数值 小 的 一 侧 ， 


集中 位 置 偏向 于 一 侧 ， 


偏 态 分 布 是 指 频数 分 布 不 对 称 ， 


右边 为 正 偏 态 。 


Z 


态 分 布 ， 


不 得 不 提 一 下 含 ; 
左边 为 负 偏 态 ， 


SB, 


zx 
© 


说 到 正 ; 
布 。 如 图 6-6 所 示 ， 





Skew 


sitive 


Po 


Negative Skew 


6.3.2 ” 峰 度 系数 分 析 


可 用 峰 度 系数 计算 “平均 劳动 报酬 ”相对 于 “平均 教育 经 费 ” 哪 个 更 接近 正 态 分 布 。 代 码 如 下 : 


> mean (jiuye$ 平 均 劳 动 报酬 ) ->mymean 

> sqd(jiuye$ 平 均 劳 动 报酬 ) ->mysd 

> length (jiuye$ 平 均 劳 动 报酬 ) ->myn 

> jiuye$ 平 均 劳动 报酬 ->x 

>( (myn* (myn+1) ) / ( (myn-1) * (myn-2) * (myn-3) ) *sum ( (x-mymean) ^4) /mysd^4- (3* (myn-1) ^2) / ( (myn-2) * (myn-3))) 
[1] 5.417817 


上 面 计算 出 了 “平均 劳动 报酬 ”的 峰 度 系数 为 5.417817， “平均 教育 经 费 ” 的 峰 度 系数 为 146.8809 (16.2.95) 。 这 两 个 峰 度 系数 表明 ， “平均 劳动 报酬 ”相对 于 “平均 教育 经 费 ” 更 接近 正 态 分 布 。 


从 下 面 的 分 析 中 可 以 发 现 ， 产 品 产量 最 适合 正 态 分 布 模型 ， 因 为 它 的 峰 度 系 数 仅 为 -0.6830728， 非 常 接近 正 态 分 布 。 


> mean (cpPS$ 产 量 . 台 .)->mymean 

> sdq(cpS$ 产 量 . 台 .)->mysd 

> length (cp$ Z. £ .) —>myn 

> cp5$ 产 量 . 台 .—>x 

> ( (myn* (myn+1) ) / ( (myn-1) * (myn-2) * (myn-3) ) *sum ( (x-mymean) ^4) /mysd^4- (3* (myn-1) ^2) / ( (myn-2) * (myn-3) ) ) 
[1] -0.6830728 


6.83.3 ”时 积分 布 概率 


在 使 用 pnorm 求 产品 产量 的 分 布 函 数 时 ， 对 应 的 每 个 实数 随机 变量 都 有 其 累积 分 布 概率 。 下 面 的 代码 计算 产品 产量 的 累积 分 布 概率 。 


== 


> mean (cp$* € .464.)-»mymean 
> sdq(cpS$ 产 量 . 台 .)->mysd 

> length (cpS$ 产 量 . 台 .)->myn 
> cp5$ 产 量 . 台 .->X 

>x 
[1] 4300 4004 4300 5016 5511 5648 5876 6651 6024 6194 7558 7381 6950 6471 
[15] 6354 8000 

> pnorm(x,mymean,mysd) 
[1] 0.07435941 0.04519643 0.07435941 0.20013522 0.33567136 0.37868351 
[7] 0.45345196 0.70390728 0.50306546 0.55994848 0.90310411 0.87500925 
13] 0.78449233 0.64954647 0.61239714 0.95270286 
































— 


为 了 更 好 地 观察 效果 ， 表 绘制 一 张 产品 产量 的 累积 分 布 概率 的 散 点 图 。 


> plot (x,pnorm(x,mymean,mysd)) 





绘制 结果 如 图 6-7 所 示 。 
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图 6-7 ”产品 产量 累积 分 布 


一 个 连续 型 随机 变量 的 概率 密度 函数 коле 是 描述 这 个 随机 变量 的 输出 值 在 某 一 个 确定 的 取 值 点 附近 的 可 能 性 的 函数 。 随 机 变量 的 取 值 落 在 某 个 区 域 之 内 的 概率 则 是 概率 密度 函数 在 这 个 
区 域 上 的 积分 ， 当 概率 密度 函数 存在 的 时 候 ， 容 积分 布 遂 数 则 是 概率 密度 函数 的 积分 。 


其 中 ，hH 是 均值 ，o 是 方差 。 
其 概率 密度 曲线 关于 x= ня}, 
2. 概 率 密度 函数 计算 


在 R 语 言 中 ， 使 用 dnorm (变量 ， 平 均值 ， 标 准 差 ) 求解 正 态 分 布 概率 密度 函数 。 下 面 的 代码 计算 产品 产量 的 概率 密度 。 


V 


mean (cpŠ > X .4.)-»mymean 
sd (cp$ 产 量 . nu gas 

> length (cp$/^ € .)-»myn 
> cp$ 产 量 . Pe 

> dnorm (x, mymean,mysd) 


V 





[1] 1.184240e-04 8.009886e-05 1.184240e-04 2.358477e-04 3.070239e-04 
[6] 3. 202882e-04 3.336542e-04 2.910430e-04 3.359337e-04 3.321435e-04 
[11] 1.444115e-04 1.733374e-04 2.463862e-04 3.120546e-04 3.225207е-04 
8.307503e-05 
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查看 产品 产量 均值 ， 得 到 如 下 结果 : 


> mymean 
[1] 6014.875 


绘制 散 点 图 如 图 6-8 所 示 。 可 以 看 到 该 曲线 接近 于 以 6014.875 为 对 称 点 的 对 称 分 布 。 绘 制 代码 如 下 : 


>plot (x, dnorm (x, mymean,mysd)) 


此 外 ，rnorm 还 可 以 返回 正 态 分 布 随 机 数 ， 调 用 格式 为 rnorm (长 度 ， 平 均值 ， 标 准 差 ) 。 比 如 : 


»rnorm(50,0,1)-»rx 
» plot (rx,dnorm(rx)) 





如 图 6-9 所 示 是 一 个 经 典 的 正 态 密度 曲线 ， 从 曲线 上 看 就 像 一 个 驼峰 
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图 6-9 正 态 密度 曲线 
6.3.5 分 位 点 
分 位 点 分 为 上 a 分 位 点 与 下 Q 分 位 点 。 
1. 下 a 分 位 点 
可 从 概率 密度 函数 的 角度 理解 下 co 分 位 点 。 设 连续 随机 变量 X 的 累积 分 布 图 数 为 FxX)， 密 度 函 数 为 fx)， 则 有 : 


Foe |". Дх=р(х < Zə=a 


上 式 的 含义 为 : 连续 随机 变量 X 小 于 等 于 Zo 的 概率 为 4。。 在 这 里 ， 称 Zo 是 X 的 下 a 分 位 点 。 
下 面 计算 产量 分 布 的 下 o 分 位 点 。 设 下 ao 分 位 点 的 a=25%=0.25， 需 要 分 析 产 量 小 于 多 少 的 概率 为 25%。 


计算 产量 分 布 的 下 a 分 位 点 (0=259%) ， 可 如 下 调用 qnorm 函 数 (其 中 ，mean 为 平均 值 ，sd 为 标准 差 ) : 





qnorm(0.25,mean, sd) 





具体 代码 如 下 : 


>sd(cpS$ 产 量 . 台 .)->mysd 
>qnorm (0.25, пеап=тутеап, sd=mysd) 
[1] 5213.9 





上 面 的 计算 结果 表明 ， 产 量 <5213.9 的 概率 为 259%。 


2. 上 co 分 位 点 


F= [* * feo-pe Z)-1-p < Z)-a 


其 中 ，Zo 为 X 的 上 a 分 位 点 。 

分 析 上 a 分 位 点 的 公式 可 发 现 ， 上 ca 分 位 点 的 计算 与 下 a 分 位 点 有 关 ， 比 如 : 计算 上 a 分 位 点 (о=25%) 可 转化 为 计算 下 a 分 位 点 (a=1-25%=75%) , 
下 面 计算 产量 分 布 的 上 a 分 位 点 。 设 上 ca 分 位 点 的 xc=259%， 需 要 分 析 产 量 大 于 多 少 的 概率 为 25%。 

计算 产量 分 布 的 上 0 分 位 点 («-2596) ， 可 如 下 调用 qnorm 函 数 (其 中 ，mean 为 平均 值 ，s d 为 标准 差 ) : 


qnorm(1-0.25,mean, sd) 


具体 代码 如 下 : 


> mean (cp$ > €.4.)-»mymean 
>sd(cp$ =. .)->mysd 
>qnorm(0.75,mean=mymean, sd2mysd) 
[1] 6815.85 





上 面 的 计算 结果 表明 ， 产 量 >6815.85 的 概率 为 259%， 即 上 a 分 位 点 的 公式 中 ，Zo 为 产量 6815.85， 上 oa 分 位 点 的 c 为 0.25， 可 用 下 式 表 示 : 


P(x»Z,)-p(x»6815.85)70.25 


3. 绘 效果 图 


1) 通过 下 面 R 语 句 绘制 如 图 6-10 所 示 的 产品 产量 的 概率 密度 图 ，P(x> 0.25) 为 图 6-10 中 的 阴影 面积 (根据 积分 的 几何 意义 ， 累 积分 布 函数 FCO 是 密度 函数 f(x) 的 积分 ， 图 中 若干 点 组 成 了 密度 函数 曲线 ， 
而 曲线 与 X 轴 围 成 的 面积 则 为 察 积分 布 ) 。 


> mean (cp$ > €.4.)-»mymean 
>sd(cpS$ 产 量 . 台 .)->mysd 

> cpS$ 产 量 . 台 .->X 

>plot (x,dnorm(x,mymean,mysd)) 
»abline (у=6815.85) 


2) 绘制 产品 产量 的 累积 分 布 图 (如 图 6-11 所 示 ) 。 可 绘制 一 个 产品 产量 的 上 oa(c=0.25) 分 位 点 和 下 a(a=0.25) 分 位 点 的 效果 图 。 绘 制 代 码 如 下 : 


> mean (cp$ > =. £ .) —mymean 
>sd(cpS$ 产 量 . 台 .)->mysd 

> cpS$ 产 量 . 台 .->X 

>plot (x,pnorm(x,mymean,mysd)) 
»abline (v-26815.85) 

»abline (v-5213.85) 
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图 6-11 产量 的 上 a 分 位 点 和 下 分 位 点 
分 析 绘制 图 6-10 与 图 6-11 所 示 的 结果 ， 能 较 直观 地 验证 刚才 得 到 的 结论 : 上 a(a=0.25) 分 位 点 表明 产量 >6815.85 的 概率 为 25%， 而 下 a(a=0.25) 分 位 点 表明 产量 <5213.9 的 概率 为 25%。 
6.3.6 ”频率 直方 图 


在 R 语 言 中 ， 可 使 用 hist 语 句 ( 设 freq 参 数 为 TRUE) 生成 频率 直方 图 。 下 面 的 代码 绘制 “平均 劳动 报酬 ”的 频率 直方 图 。 





> hist (jiuye[[" 平 均 劳 动 报酬 "] ] ,freq=TRUE) 


绘制 结果 如 图 6-12 所 示 。 


6.3.7 核 概率 密度 与 正 态 概 率 分 布 


下 面 考虑 让 “平均 劳动 报酬 ”的 概率 密度 与 正 态 分 布 在 一 张 图 中 显示 出 来 ， 这 样 就 能 更 好 地 看 清 数据 的 分 布 情况 。 示 例 代 码 如 下 : 





> hist (jiuye[[" 平 均 劳 动 报 酬 "] ] , £req- FALSE) 

lines (density (jiuye[[" 平 均 劳 动 报酬 "] ] ) , col=" red") 

х<-с (0:сеі1іпа (тах (jiuye[["-E3525274R 81" ] ] ) ) ) 

lines (х, dnorm (x, mean (jiuye[[" 平 均 劳 动 报 酬 "]]) vsdq(jiuye[[" 平 均 劳 动 报 酬 "]] ) ) , col" blue") 


ууу 





绘制 结果 如 图 6-13 所 示 。 
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图 6-12 平均 劳动 报酬 的 频率 直方 图 


Histogram of jiuye[ [^^ 35 27 z/JJ45: BN] 
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图 6-13 ”平均 劳动 报酬 的 概率 密度 与 正 态 分 布 
从 图 6-13 中 可 以 看 到 ， “平均 劳动 报酬 ”的 偏 度 大 于 0， 直 方 图 偏 左 ， 属 于 偏 态 分 布 。 


2. 经 验 累 积分 布 与 正 态 分 布 


经 验 分 布 冰 数 是 指 根据 样本 构造 的 概率 分 布 国 数 。 设 X1，x2，.…，xn 为 一 组 样本 ， 定 义 函 数 m(x) 表 示 样 本 中 小 于 或 者 等 于 x 的 样本 个 数 ， 则 称 函 数 








. m(x) 
n 
n 
为 样本 x1 П X2, жү xn 的 经 验 分 布 国 数 。 
下 面 的 代码 绘制 “平均 劳动 报酬 ”的 经 验 累积 分 布 与 正 态 分 布 。 
> plot (ecdf (jiuye[[ ] ) ， E T TRUE, do. p-FALSE 
> lines (x,pnorm(x,mean (jjiuye [ [" 平 均 劳 动 报酬 "]]) , sd (Jiuyel[ RUM 劳动 报酬 "] ; col-"blue") 





绘制 结果 如 图 6-14 所 示 。 其 中 ， 光 滑 的 线 为 标 积 正 态 分 布 曲线 ， 不 光滑 的 线 为 经 验 累 积分 布 曲线 。 


6.3.8” 正 态 检 验 与 分 布 拟 合 


1.QQ 图 


QQ 图 可 以 测试 数据 分 布 是 否 近似 为 某 种 类 型 分 布 。 如 果 近 似 于 正 态 分 布 ， 则 数据 点 接近 下 面 方程 表示 的 直线 。 


y-coxtu 
其 中 ，o 为 标准 差 ，b 为 平均 数 。 


比如 ， 可 用 它 来 测试 “平均 劳动 报酬 ”分 布 是 否 近 似 于 正 态 分 布 。 在 R 语 言 中 ， 使 用 qqnorm 消 数 来 画 数 据点 图 ， 使 用 qqline 函 数 画 这 根 直线 ， 如 图 6-15 所 示 。 代 码 如 下 : 


Fn(x) 


ecdfi(jiuye[[7 1-25] 27 Л JR B] ]) 
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图 6-14 平均 劳动 报酬 的 经 验 累 积分 布 与 正 态 分 布 
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图 6-15 ”平均 劳动 报酬 分 布 QQ 图 


> qqnorm([" 平 均 劳 动 报酬 "]]) 
> qqline (jiuye[[" 平 均 劳 动 报酬 "] ] ) 





从 图 6-15 来 看 ， 平 均 劳 动 报酬 离 标准 正 态 分 布 还 是 有 差距 的 。 


相对 于 “平均 劳动 报酬 ”， 产 品 产量 就 非常 接近 正 态 分 布 。 代 码 如 下 : 








绘制 出 的 QQ 图 如 图 6-16 所 示 。 
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图 6-16 产品 产量 QQ 图 


2. 正 态 检验 与 分 布 拟 合 


1) W 检 验 。W 检 验 可 以 检验 数据 是 否 符合 正 态 分 布 。 在 R 语 言 中 使 用 函数 shapiro.test0 进 行 正 态 W 检 验 。 代 码 如 下 : 


> shapiro.test (cp$ 产 量 . 侣 .) 
Shapiro-Wilk normality test 

data: cpS 产 量 . 合 ， 

W — 0.9671, p-value = 0.7903 





上 述 代码 中 出 现 了 p 值 ， 其 作用 是 : 当 p 值 小 于 某 个 显著 水 平 a (如 0.05) 时 ， 认 为 样本 不 是 来 自 于 正 态 分 布 的 总 体 。 此 例 中 ，0.7903>0.05， 可 认为 产量 是 正 态 分 布 的 。 


2) Kolmogorov-smirnov 检 验 。Kolmogorov-Ssmirnov 检 验 用 于 检验 单一 样本 是 否 来 自 某 一 特定 分 布 ， 比 如 检验 一 组 数据 是 否 为 正 态 分 布 。 它 的 检验 方法 是 以 样本 数据 的 累计 频数 分 布 与 特定 理论 分 
布 做 比较 ， 若 两 者 间 的 差距 很 小 ， 则 该 样本 取 自 某 特 定 分 布 族 。 可 比较 一 个 频率 分 布 f(x) 与 理论 分 布 g(x)， 或 者 两 个 观测 值 分 布 来 完成 检验 。 


可 以 从 假设 检验 的 角度 来 理解 Kolmogorov-Smirnov 检 验 ， 假 设 检验 使 用 了 一 种 类 似 于 “ 反 证 法 ”的 推理 方法 ， 它 先 假设 总 体 中 的 某 项 假设 成 立 ， 计 算 其 会 导致 什么 结果 产生 。 若 导致 不 合理 现象 友 
生 ， 拒 绝 原先 的 假设 ， 若 没有 导致 不 合理 的 现象 友 生 ， 即 不 拒绝 原 假设 ， 从 而 接受 原 假设 。 


对 Kolmogorov-Smirnov 检 验 而 言 ， 将 原 假设 HO 确定 为 : 两 个 数据 分 布 一 致 或 者 数据 符合 特定 理论 分 布 。 用 Fo(%) 表 示 分 布 浮 数 ，Fn(%) 表 示 一 组 随机 样本 的 囚 积 概率 浮 数 ， 设 D 为 Fo(x) 与 Fn%) 差 距 的 最 
大 值 ， 定 义 如 下 : 


D-max | F,(3)-Fo(3) | 
当 实 际 观测 值 D>D(n，oc) 时 ， 则 拒绝 H0， 否 则 接受 H0 假 设 。 


在 R 语 言 中 使 用 ks.test 函 数 完成 正 态 性 检验 。 代 码 如 下 : 


= 


ks.test(x, y, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0E 
exact = NULL) 














BPS/Text/...,alternative = c("two.sided", "less", "greater"), 








上 述 代 码 中 有 4 个 参数 ， 第 一 个 参数 x 为 观测 值 向 量 ; 第 二 个 参数 y 为 第 二 观测 值 向 量 或 者 累计 分 布 函数 ， 或 者 一 个 真正 的 累积 分 布 函数 ， 如 pnorm， 只 对 连续 CDF 有 效 ; 第 三 个 参数 指明 是 单 侧 检 验 还 
是 双 侧 检 验 ; exact 参 数 为 NULIL 或 者 一 个 逻辑 值 ， 表 明 是 否 需要 计算 精确 的 P 值 。 比 如 : 要 生成 两 个 随机 的 正 态 分 布 ， 然 后 检验 这 两 个 分 布 是 否 是 同一 类 型 的 分 类 。 其 示例 代码 如 下 : 


> ks.test (rnorm(80), rnorm(40)) 
Two-sample Kolmogorov-Smirnov test 
data:  rnorm(80) and rnorm(40) 
D = 0.125, p-value = 0.7874 
alternative hypothesis: two-sided 











从 上 述 代码 可 见 ，p 值 大 于 0.05， 不 拒绝 原 假设 ， 因 此 可 认为 这 两 个 分 布 是 同一 类 型 。 


Kolmogorov-smirnov 检 验 要 求 待 验 分 布 是 连续 的 ， 连 续 分 布 出 现 相 同 值 的 概率 为 0， 也 就 是 说 ， 数 据 中 若 出 现 相 同 值 ， 则 连续 分 布 的 假设 不 成 立 。 
6.3.9 ”其 他 分 布 及 其 拟 合 


前 面 几 节 介绍 了 R 语 言 滔 数 对 正 态 分 布 的 支持 (六 数 名 除 前 缀 外 为 norm) 。 除 了 正 态 分 布 外 ，R 语 言 还 支持 对 其 他 数据 分 布 的 分 析 和 拟 合 ， 如 下 所 示 : 
指数 分 布 rexp(n,rate=1) 

gama 分 布 rgamma(n,shape,scalez 1) 

泊 松 分 布 rpois(n,lambda) 

Weibull 分 布 rweibull(n,shape,scale=1) 

Cauchy 分 布 rcauchy(n,location=0,scale=1) 

beta 分 布 rbeta(n,shape1,shape2) 

S(tudent) 分 布 rt(n,df) 

Fisher-Snedecor rf(n,df1,df2) 

Pearson rchisq(n,df) 

二 项 式 分 布 rbinom(n,size,prob) 

多 项 式 分 布 rmultinom(n,size,prob) 

几何 分 布 rgeom(n,prob) 

hypergeometric rhyper(nn,m,n,k) 

logistic rlogis(n,location=0,scale=1) 

lognormal rlnorm(n,meanlog=0,sdlog=1) 

negative binomial rnbinom(n,size,prob) 

uniform runif(n,minz0,max- 1) 

Wilcoxon’ s statistics  rwilcox(nn,m,n),rsignrank(nn,n) 
对 这 些 函 数 的 调用 格式 是 : 前 缀 + 函数 名 。 


前 缀 规则 如 下 : 


相同 分 布 的 随机 数 : r 


64 多 变量 分 析 

多 变量 分 析 是 统计 分 析 方 法 中 的 一 种 ， 通 常 应 用 于 数据 同时 存在 多 个 变量 (因素 、 指 标 ) 的 场景 ， 是 对 单 变量 统计 分 析 的 发 展 。 
6.4.1 多 变量 数据 分 析 

多 变量 数据 分 析 也 称 为 多 元 数据 分 析 ， 是 指 对 多 个 变量 同时 进行 分 析 和 可 视 化 操作 。 
1. 求 职 情况 散 点 图 矩阵 


在 R 语 言 中 ， 当 A 是 一 个 数值 型 矩阵 或 数据 框 时 ， 可 使 用 pairs(A) 语 句 绘制 两 列 之 间 的 散 点 图 和 矩阵。 下面 以 求职 情况 为 例 ， 讲 解 如 何 使 用 散 点 图 矩阵 来 展示 多 变量 数据 ， 表 6-3 为 第 二 季度 市 场 求 职 指数 情 
况 表 。 


表 6-3 第 二 季度 市 场 求职 指数 情况 表 


Fx 
2011 36175 531 


Fx 


输入 以 下 R 代 码 对 表 6-3 的 求职 数据 进行 分 析 : 


相对 求职 指数 
100 
112 
121 
106 
(Ж) 
相对 求职 指数 
107 
100 
94 





> ejdgz«-read.csv ("ejdgz.csv") 





> ejdqz 
年 度 求职 求职 指数 相对 求职 指 

1 20084 30 100 1 

2 2009 АУ 112 112 
3 20104 3902961 128 121 
4 20114 3675531 121 106 
5 20124 3765853 124 107 
6 20134 3562515 117 100 
7 20144 3350834 110 94 




















> pairs (ejdqz) Aii u 9 ABE, 25A 6-17 


表 6-3 中 求职 数据 的 散 点 图 矩阵 如 图 6-17 所 示 。 





查看 散 点 图 矩阵 有 以 下 两 种 方式 : 


1) 首先 ， 固 定 代 表 某 一 变量 的 某 一 列 (或 代表 某 些 变量 的 某 几 列 ) ， 然 后 查看 与 代表 其 他 某 变量 的 某 一 行 (或 代表 其 他 变量 的 某 几 行 ) 交叉 处 的 图 。 
2) 首先 ， 固 定 代表 某 一 变量 的 某 一行 (或 代表 某 些 变量 的 某 几 行 ) ， 然 后 查看 与 代表 其 他 某 变量 的 某 一 列 (或 代表 其 他 变量 的 某 几 列 ) 交叉 处 的 图 。 


例如 ， 可 以 定位 于 年 度 ， 假 设 需要 查看 图 6-17 所 示 的 2012 年 的 数据 ， 就 将 目光 定位 于 第 一 行 ， 求 职 人 数 接近 380 万 ， 而 绝对 求职 指数 略 高 于 120， 相 对 求职 指数 在 105 到 110 之 间 。 又 比如 假设 需要 查看 
求职 人 数 在 340 万 以 上 ， 绝 对 求职 指数 在 115 以 上 的 年 份 ， 这 样 就 定位 于 求职 人 数 和 年 份 ， 先 锁定 于 第 1 列 和 第 3 列 ， 在 第 2 列 (求职 人 数 ) 的 第 1 行 找 到 340 万 以 上 (刻度 从 左 到 右 数 的 第 2 个 位 置 以 右 ) 的 部 
分 ， 将 该 部 分 设 为 A 区 ,第 3 列 (绝对 求职 指数 ) 的 第 1 行 找 到 115 万 以 上 (下 面 最 后 一 行 绝对 求职 指数 列 对 应 的 刻度 表 上 ， 从 左 到 右 数 第 4 个 位 置 以 右 ) 的 部 分 
到 3 个 点 ，A 区 和 B 区 的 3 个 点 互相 一 一 对 应 ， 这 3 个 点 都 属于 A、B 两 个 区 的 共同 点 ， 查 找 这 3 个 点 对 应 的 年 份 ( 右 上 和 角 的 年 份 刻度 表 ) 为 2010、2011、2012。 如 果 A 区 和 B 区 仅 能 找到 两 个 共同 点 ， 那 么 就 查 


找 这 两 个 共同 点 所 对 应 的 年 份 。 


， 将 该 部 分 设 为 B 区 ， 在 A 区 和 B 区 分 别 可 以 找 
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96-17 求职 散 点 图 矩阵 


分 析 图 6-17 可 以 看 出 ，2008 年 到 2010 年 期 间 的 求职 指数 在 上 升 ， 市 场 求职 人 数 出 现 了 扩张 态势 ， 在 经 历 2011 年 到 2012 年 的 小 波动 后 ， 从 2012 年 开始 相对 求职 指数 在 逐年 下 降 ， 市 场 求职 人 数 呈 现 收缩 
态势 。 


2. 学 生成 绩 散 点 图 矩阵 
首先 ， 输 入 如 下 的 R 代 码 加 载 并 显示 学 生成 绩 数据 : 


> source«-read.csv("xscj.csv") 





























> Source 
学 号 期 末 考 试 平时 成 绩 性 别 

1 201 60 74 1 
2 202 66 64 1 
3 203 91 82 0 
4 204 94 49 0 
5 205 60 88 0 
6 206 48 48 0 
7 207 74 84 0 
8 208 45 35 0 
9 209 97 89 1 
10 210 74 98 0 
11 211 67 64 0 
12 212 50 50 0 
13 213 85 94 ii 
14. 214 70 64 0 
然后 ， 绘 制 散 点 图 矩阵， 代码 如 下 : 


> pairs (Source)# 如 图 6-18 所 示 ， 性 别 为 1 则 表示 男 ， 性 别 为 0 则 表示 女 。 





学 生成 绩 散 点 图 矩阵 如 图 6-18 所 示 。 
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图 6-18 学 生成 绩 散 点 图 和 矩阵 


从 图 6-18 可 以 看 出 ， 第 3 行 第 2 列 的 散 点 图 表明 : 平时 成 绩 与 期 末 考 试 成 绩 有 很 大 的 线性 相关 性 ， 平 时 成 绩 较 好 的 ， 期 末 考 试 成 绩 也 较 好 ; 平时 成 绩 较 差 的 ， 期 末 考 试 成 绩 普遍 也 较 差 。 观 察 第 3 行 第 4 列 
的 散 点 图 ， 可 以 看 到 男生 (性别 为 1) 的 成 绩 分 布 比较 均匀 ， 范 围 大 致 为 40 分 到 95 分 ， 而 女生 (性 别 为 0) 的 成 绩 分 布 则 集中 在 两 部 分 ， 第 一 部 分 为 60 分 以 下 不 及 格 的 ， 这 部 分 的 比例 相对 于 第 二 部 分 略 小 ， 
二 部 分 集中 在 80 分 以 上 ， 这 部 分 的 比例 较 大 。 


3. 学 生成 绩 协 同 图 


协同 图 (coplot) 是 一 种 多 变量 的 探索 性 分 析 图 形 ，R 语 句 的 基本 形式 为 coplot(y~x|z)， 其 中 x 和 y 是 数值 型 向 量 ，z 是 同 长 度 的 因子 ， 对 于 z 的 每 一 水 平 ， 均 绘制 相应 组 的 x 和 y 的 散 点 图 。 下 面 按 性 别 分 
组 来 绘制 学 生成 绩 的 协同 图 。 


首先 ， 设 置 因子 ，R 代 码 如 下 : 


> source<-read.csv ("хѕсј.сѕу") 
> attach (source) 





> factor (性 别 ,labels = c(" 女 "," 男 ") ) ->SeX 
> sex 

[1] 男男女女 女 女 女 女 男女 女 女 男女 女 女 男女 男 男 男 男 男 男 
[25] 男女 女 女 女 男 男 男 男 男女 女 女 男 男 女 男 女 男 男 男 男 男 


Levels: dX 男 


然后 ， 以 性 别 来 分 组 ， 绘 制图 形 ，R 代 码 如 下 : 


> coplot (平时 成 绩 ~ 期 末 考 试 | sex) 





结果 如 图 6-19 所 示 。 


从 图 6-19 可 以 看 出 ， 男 生 的 平时 成 绩 与 期 末 考 试 成 绩 更 成 线性 关系 ， 若 男生 平时 成 绩 不 错 ， 期 末 考 试 的 成 绩 也 不 错 。 而 女生 对 于 这 点 则 不 是 非常 明显 ， 尤 其 是 在 平时 成 绩 及 格 的 情况 下 ， 平 时 成 绩 好 并 
不 意味 着 期 末 考 试 的 成 绩 一 定 会 好 。 


4. 学 生成 绩 点 图 


首先 ， 设 置 因子 ，R 代 码 如 下 所 示 : 





> source«-read.csv("xscj.csv") 
> attach(source) 
> factor (cut (平时 成 绩 , 5) ) ->pjcj 








然后 ， 分 区 段 绘制 全 部 学 生平 时 成 绩 的 点 图 : 


> dotchart (table (pjcj)) 





结果 如 图 6-20 所 示 。 


52. 产品 销量 三 维 图 


首先 ， 读 入 产品 销量 数据 ，R 代 码 如 下 : 





> goods«-read.csv ("goods.csv") 
> goods 
地 区 编码 B4 销量 
] 1200 
3210 
123 
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6-20 平时 成 绩 的 点 图 


然后 ， 


>+ 


仗 查 是 否 安装 scatterplot3d 库 ， 安 装 过 程 如 下 : 


> Ssource("http://bioconductor.org/biocLite.R") 
> biocLite("scatterplot3d") 





再 然后 ， 显 示 三 维 数据 图 : 


> library (scatterplot3Q) 
> scatterplot3d (4b K 2825, H 43,43, highlight.3d-TRUE,pch-20,col.axis-"blue", col.grid-"lightblue",grid-TRUE, type-"h",main-" 4f € — ж", 1ар=с(4,12)) 














结果 如 图 6-21 所 示 。 


销量 一 览 表 
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图 6-21 销量 一 览 


由 图 6-21 可 见 ， 销 量 比较 好 的 主要 是 地 区 1 的 8 月 、 地 区 2 的 5 月 与 6 月 ， 地 区 3 的 销量 不 容 乐 观 ， 处 于 浦 销 状态 ， 地 区 4 的 销量 稍微 好 一 点 ， 但 销售 情况 仍然 很 差 ， 地 区 1 与 地 区 2 的 销量 不 错 ， 最 高 销量 接 
近 7000。 


最 后 分 析 一 下 1 号 地 区 的 销售 形势 ，R 代 码 如 下 : 





> subset (goods, 地 区 编码 ==1) -»diqu1l 
> diqu1[2:3]-»nolfx 











> nolfx 
月 份 销量 
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124] 
> plot (nolfx, type="o", main="1 号 地 区 形势 ") 
> abline (h=mean (nolfx$ 销 量 ) ) 

> axis (4,mean (nolfx$ 销 量 )) 

















结果 如 图 6-22 所 示 。 
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图 6-22 1 号 地 区 销售 形势 图 
观察 图 6-22 可 以 看 出 ，1 号 地 区 在 2 月 和 8 月 的 销售 情况 不 错 ， 而 3 月 和 5 月 的 销售 形势 则 不 容 乐观 。 
6. 产 品 销量 气泡 图 
气泡 图 是 一 个 将 点 表示 为 圆圈 的 散 点 图 ， 与 XY 散 点 图 类 似 ， 但 可 表现 的 数据 信息 量 更 多 ， 最 典型 的 应 用 是 通过 更 改 气泡 的 大 小 和 颜色 ， 使 数据 的 探索 更 加 方便 。 在 R 语 言 中 ， 用 symbols() 函 数 作 气 泡 


， 有 具体 的 调用 格式 如 下 : 





Symbols (x, y-NULL, circles, squares, rectangles, stars, thermometers, boxplots, inches-TRUE, add-FALSE, fg-par ("col") , bg-NA, xlab-NULL, ylab-NULL, main-NULL, xlim-NULL, ylim-NU: 











以 刚才 的 产品 销量 为 例 ， 输 入 以 下 R 语 言 代 码 绘制 产品 销量 气泡 图 : 








> symbols (月 份 ,地 区 编码 ,circles = 销量 , хахі="п", yaxt="n", inches = .55)## 绘 制图 ， 但 不 显示 刻度 。 
> axis(1,at-1:12,1as-3) #x 轴 刻度 
> axis (2,at=1:4,1as=3) #y 轴 刻度 











结果 如 图 6-23 所 示 。 
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96-23 ”产品 销量 气泡 图 


观察 图 6-23 可 以 看 出 ， 代 表 1 号 地 区 8 月 销量 的 气泡 最 大 ， 表 示 销 量 最 好 ，2 号 地 区 的 5 月 和 6 月 的 销量 差不多 ， 且 都 比较 大 。 


7. 产 品 销量 星 图 


星 图 的 绘制 方法 如 下 : 


1) 若 设 变量 数目 为 n 个 ， 则 将 圆周 n 等 分 ， 连 接 圆心 和 这 nn 个 分 点 ， 将 形成 n 条 半径 ， 这 些 半径 依次 定义 为 变量 的 坐标 轴 ， 标 以 适当 的 刻度 。 


2) 对 给 定 的 一 次 观测 值 ， 把 n 个 变量 值 分 别 取 在 相应 的 坐标 轴 上 ， 将 它们 连接 成 n 个 圆 弧 。 


下 面 使 用 星 图 来 分 析 4 个 地 区 各 月 份 的 销量 ，R 代 码 如 下 : 


首先 ， 调 用 和 整理 数据 。 


> goods«-read.csv ("goods.csv") 
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> goods 
地 区 编码 B4 销量 

1 1 1 1200 
2 2 3210 
3 3 123 
4 4 1111 
5 5 688 
6 6 2110 
7 7 1123 
8 8 6894 
9 9 1470 
10 10 1071 
TL 11 2250 
12 1 12 1241] 
T3 2 1.22222 
14 2 2 
> yue4«-subset (goodqs， 地 区 编码 ==4， select 
> yue3<-subset (goodqs， 地 区 编码 ==3， select 
> yue2<-subset (goods, 地 区 编码 ==2， select 
> yuel<-subset (goodqs， 地 区 编码 ==1， select 
> row.names (mygoods) <-c (1:4) 
> mygoods 

1 2 3 4 5 6 7 8 
1 1200 3210 123 1111 688 2110 1123 6894 
2 2222 1500 3200 1580 5562 5841 1860 981 
3 2144 2243 134 235 486 985 235 1020 
4 1820 1588 5440 470 1500 720 845 476 

















= C (销量 ) ) 
= C( 销 量 ) ) 
= C( 销 量 ) ) 
= C (销量 ) ) 
9 10 1 12 
1470 1071 2250 1241 
658 789 1020 1120 
558 995 886 398 
984 745 368 872 


BPS/Text/.. 








然后 调用 stars 国 数 绘制 图 形 ， 通 过 将 draw.segments 人 参数 设置 为 TRUE， 指 定 绘 制 的 星 图 是 由 圆 弧 连接 而 成 的 。 





»stars (mygoods,draw.segments-TRUE 


结果 如 图 6-24 所 示 。 


— 








图 6-24 ”产品 销量 星 图 


观察 图 6-24 可 以 看 出 ，1 号 地 区 和 2 号 地 区 的 销量 最 好 。 


642 ”多 元 数据 相关 性 分 析 


1. 皮 尔 森 相关 系数 与 协 方差 


(1) 皮尔 森 相 关系 数 


皮尔 森 相 关系 数 (Pearson correlation coefficient) 也 称 皮 尔 森 积 矩 相关 系数 ， 是 一 种 线性 相关 系数 ， 皮 尔 森 相关 系数 是 用 来 反映 两 个 变量 线性 相关 程度 的 统计 量 ， 用 于 度量 两 个 变量 X 和 Y 之 间 的 相 
X (线性 相关 ) ， 如 表 6-4 所 示 。 其 值 介 于 -1~ 1 之 间 ， 负 数 为 负 相关 ， 正 数 为 正 相关 。 


表 6-4 皮尔 森 相 关系 数 


皮尔 森 相 关系 数 负 值 皮尔 森 相 关系 数 正 值 相关 性 


皮尔 森 相关 系数 的 计算 公式 如 下 : 


_ соу(Х,1) E[QC-45)0 -4)] 


X.Y 
P 00, 030, 


上 了 式 中 ， 分 子 是 协 方差 ， 分 子 是 两 个 变量 标准 差 的 乘积 ，X 和 Y 的 标准 差 都 不 为 0。 
HT ux-EQX,og-E[(X-EQOy]-EQO)-EX(X), YEM, ЗН. 
E[CX-E(X))(1-EQ?)) |-E(XY) -EE(Y) 
因此 ， 也 可 将 皮尔 森 相 关系 数 的 计算 公式 写成 如 下 形式 : 
E(XY)-EQOE(Y) 


皮尔 森 相 关系 数 是 对 称 的 ， 即 : рҳү=рүх. 


此 外 ， 可 基于 样本 对 协 方 差 和 标准 差 进行 估计 ， 可 以 得 到 样本 相关 系数 r 如 下 : 


2, -DD 





n 


> Е; 3 (Ey 


i=] 





利用 样本 相关 系数 推断 总 体 中 的 两 个 变量 是 否 相 关 ， 可 以 用 t 统 计量 对 总 体 相 天 系数 为 0 的 原 假 设 进行 检验 。 若 t 检 验 显著 ， 则 拒绝 原 假 设 ， 即 两 个 变量 是 线性 相关 的 ; 若 t 检 验 不 显著 ， 则 不 能 拒绝 原 假 
设 ， 即 两 个 变量 不 是 线性 相关 的 。 


(2) 协 方 差 


协 方差 表示 的 是 两 个 变量 总 体 误差 的 方差 ， 这 与 只 表示 一 个 变量 误差 的 方差 不 同 。 如 果 两 个 变量 的 变化 趋势 一 致 ， 也 就 是 说 如 果 其 中 一 个 大 于 自身 的 期 望 值 ， 另 外 一 个 也 大 于 自身 的 期 望 值 ， 那 么 这 两 
个 变量 之 间 的 协 方差 就 是 正 值 。 如 果 两 个 变量 的 变化 趋势 相反 ， 即 其 中 一 个 大 于 自身 的 期 望 值 ， 另 外 一 个 却 小 于 自身 的 期 望 值 ， 那 么 这 两 个 变量 之 间 的 协 方 差 就 是 负 值 。 


(3) 实例 剖析 


下 面 以 某 商 品 的 销量 及 原料 分 析 数 据 为 例 ， 分 析 原 料 对 某 商 品 销量 的 影响 ，R 代 码 如 下 : 





























> read.csv("ABCgoods.csv") -»mygoods 
> mygoods 
A 原料 ВЖЖ C 原 料 商品 销量 
1 0.85 0.13 0.02 4500 
2 0.33 0.23 0.44 1800 
3 0.64 0.24 0.12 3900 
4 0.38 0.12 0.50 1000 
5 0.10 0.20 0.70 740 
6 0.28 0.17 0.55 990 
7 0.15 0.80 0.05 910 
8 0.18 0.70 0.12 930 
> cov (mygoods) -?myanalysis.covt cov 为 协 方差 矩阵 
> cor (mygoods) -^myanalysis.cort cor 为 相关 系数 矩阵 
> myanalysis.cov 
A 原料 B 原 料 C 原 料 商品 销量 
A 原料 0.06716964 . -0.03470179 -0.03246786 368.2161 
B 原 料 -0.03470179 0.07174107 -0.03703929 -147.3554 
C 原 料 -0.03246786 -0.03703929 0.06950714 -220.8607 商 品 销量 368.21607143 -147.35535714 -220.86071429 2235941.0714 
> myanalysis.cor 
A 原料 B 原 料 СЖЖ ”商品 销量 
A 原料 1.0000000 -0.4998980 -0.4751737 0.9501366 
B 原 料 -0.4998980 1.0000000 -0.5245223 -0.3679187 
C 原 料 -0.4751737 -0.5245223 1.0000000 -0.5602393 商 品 销量 0.9501366 -0.3679187 -0.5602393 1.0000000 





在 R 中 可 调用 cor.test 进 行 检测 ， 它 默认 采用 pearson 检 验 (method 参 数 ) ， 置 信 区 间 水 平 默认 为 0.95(conf.level)，p 值 <0.05 则 拒绝 原 假设 ， 并 认为 两 变量 线性 相关 。 代 码 如 下 所 示 : 


> cor.test (~A 原 料 +B 原 料 , data=mygoods) 
Pearson's product-moment correlation 

data: ”A 原料 and B 原 料 

t = -1.4138, df = 6, p-value = 0.2071 

alternative hypothesis: true correlation is not equal to 0 

95 percent confidence interval: 

-0.8907805 0.3161398 

sample estimates: 

COT 
-0.499898 
> cor.test (~A 原 料 +C 原 料 , data=mygoods) 

Pearson's product-moment correlation 
data: ”A 原料 and CAR 
t = -1.3228, df = 6, p-value = 0.2341 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 

-0.8838848 0.3450297 
sample estimates: 
cor 
-0.4751737 
> cor.test (~A 原 料 + 商 品 销量 ,qata=mygoods ) 

Pearson's product-moment correlation 
data: 有 原料 and 商品 销量 
t = 7.4634, df = 6, p-value = 0.0002985 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 

0.7427838 0.9911796 
sample estimates: 

Cor 
0.9501366 
> cor.test(~C 原 料 + 商 品 销量 , data=mygoods) 

Pearson's product-moment correlation 
data: САЖ and 商品 销量 
t = -1.6567, df = 6, p-value = 0.1487 
alternative hypothesis: true correlation is not equal to 0 



















































































95 percent confidence interval: 
-0.9068866 0.2386486 
sample estimates: 

сог 
-0.5602393 
> cor.test (~B 原 料 + 商 品 销量 , data=mygoods) 

Pearson's product-moment correlation 

data: BA and 商品 销量 
t = -0.9692, df = 6, p-value = 0.3699 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8517618 0.4546201 
sample estimates: 

сог 
-0.3679187 
> cor.test (~B 原 料 +C 原 料 , data=mygoods) 

Pearson's product-moment correlation 

data: ВЖЖ and CAR 
t = -1.5091, df = 6, p-value = 0.182 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8974739 0.2857795 
sample estimates: 

сог 
-0.5245223 



























































分 析 以 上 cor.test 的 调用 结果 ， 可 以 看 出 : 
A 原料 、B 原 料 、C 原 料 互 相 线 性 无 关 ， 应 属于 不 需要 按 指定 配 比 配置 的 。 
A 原料 与 商品 销量 线性 相关 。 
2. 影 响 因素 分 组 
下 面 利 用 相关 性 分 析 ， 来 分 析 某 类 商品 的 网 络 销售 情况 ， 并 将 影响 因素 分 组 。 


首先 ， 读 入 数据 : 


> read.csv ("sales2.csv") ->mysales 
> mysales 
价格 好 评 率 月 平均 评论 数 包装 精美 程度 .1.3. 品牌 知名 度 .1.3. 月 平均 销量 
50 94 150 3 














1 350 

2 150 68 120 2 2 290 

3 190 88 100 2 2 160 

4 1500 85 5 1 1 40 

5 69 98 40 2 2 64 

6 800 73 3 2 1 20 

7 32 88 180 3 3 400 

8 500 90 6 2 ] 10 

9 182 68 19 2 2 70 

10 23 89 190 3 2 500 

然后 ， 计 算 相关 系数 : 

> cor (mysales) 

价格 好 评 率 月 平均 评论 数 包装 精美 程度 .1.3. 价 格 1.0000000 -0.1648994 -0.6538897 -0.7769090 好 评 率 -0.1648994 1.0000000 
品牌 知名 度 .1.3. 月 平均 销量 价格 -0.7531132 -0.5897317 好 评 率 0.2556607 0.1777546 月 平均 评论 数 0.7921685 0.9798662 包 装 精 


再 然后 ， 对 各 个 指标 的 相关 度 进行 分 析 。 按 相关 度 将 指标 进行 分 组 ， 使 相关 系数 高 的 指标 归 为 同一 组 ， 找 到 出 现 除 开 1 以 外 的 绝对 值 最 大 相关 度 一 一 月 平均 评论 数 与 月 平均 销量 的 相关 系数 为 
0.9798662， 包 装 精美 程度 .1.3. 与 月 平均 销量 的 相关 系数 为 0.8104570， 将 这 3 个 指标 归 为 一 组 ， 然 后 找到 价格 与 品牌 知名 度 的 相关 系数 0.7531132， 将 这 两 个 指标 归 为 一 组 ， 好 评 率 为 一 组 ， 这 样 一 共 分 为 
了 三 组 。 





将 每 一 个 组 内 部 的 每 个 指标 的 权 值 设 为 不 同 的 值 ( 保 证 权 值 之 和 为 1) ， 分 别 设置 如 下 : 

1) 第 1 组 中 月 平均 销量 的 权 值 为 0.8， 月 平均 评论 数 的 权 值 为 0.15， 包 装 精美 程度 .1.3. 的 权 值 为 0.05 (计算 时 为 3- 包 装 精美 程度 ， 因 为 包装 精美 程度 数字 越 小 ， 表 示 越 精美 ， 指 标 是 这 样 设 计 的 ) 。 
2) 第 2 组 ， 价 格 的 权 值 为 0.8， 品 牌 知 名 度 .1.3. 的 权 值 为 0.2 (计算 时 为 3- 品 牌 知 名 度 ， 因 为 品牌 知名 度数 字 越 小 ， 表 示 越 知名 ， 指 标 是 这 样 设计 的 ) 

3) 第 3 组 就 一 个 指标 好 评 率 。 不 设 权 值 。 


最 后 ， 计 算 这 3 组 的 得 分 。 


attach (mysales) 
groupl«- (月 平均 评论 数 *0.15+ (3- 包 装 精美 程度 .1.3.)*x0.05+ 月 平均 销量 *0.8) /3 
group2«- ( (3- 品 牌 知 名 度 .1.3.)*0.2+ 价 格 *0.8) /2 

group3<- 好 评 率 

myavg= (groupl*0.45+group2*0.1+group3*0.45)/3 

names (myavg) «-c (1:10) 

sort (myavg, decreasing-TRUE 
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8 
35.08500 34.39917 30.97667 29.89167 24.70583 22.88917 22.44833 20.62083 


5 9 
18.48583 15.57500 分 析 sort 函 数 的 结果 ， 可 看 出 ， 按 综合 排名 ， 从 高 到 低 的 商品 序号 如 下 : 
10 4 7 JR 2 3 6 8 5 9 
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РИНАТ, БЈЗ) ЕЗИНЕ, ЭШЕНӘ ЕЕН. ЕАС ЧТ ІРУ ТВА. ШЕ 34. RIDARE, ТИЕШ ЕИ, Mura. ІЕМ 
与 分 布 拟 合 等 数据 统计 指标 ;然后 介绍 了 正 态 分 布 等 分 布 模型 ; 最后， 讲解 了 多 变量 数据 分 析 和 可 视 化 、 数 据 相关 性 分 析 等 知识 。 


cH 
dk 
gn 


(1) 下 载 本 书 例子 中 的 美国 地 震 台 数据 earthquakes.csv， 对 于 其 中 震 深 Depth 进 行 分 析 ， 绘 制 累 计 分 布 概率 的 散 点 图 。 


(2) 下 载 本 书 例子 中 的 美国 地 震 台 数据 earthquakes.csv， 对 于 其 中 震级 Magnitude 进 行 分 析 ， 分 析 概 率 密度 。 


(3) 下 载 本 书 例子 中 的 全 国 就 业 调查 情况 数据 youxiangz.csv， 分 析 “ 平 均 劳 动 报酬 ”的 正 态 分 析 函 数 、 峰 度 系数 、 累 计 分 布 概率 、 概 率 密度 函数 及 曲线 、 直 方 图 。 
(4) 下 载 本 书 例子 中 的 商品 销售 情况 数据 sales2.csv， 以 价格 为 X 轴 ， 以 月 平均 评论 数 为 Y 轴 ， 绘 制 关 于 月 平均 销量 的 气泡 图 ， 分 析 价 格 和 月 平均 评论 数 处 于 哪些 区 间 内 时 ， 月 平均 销量 较 好 。 


(5) 下 载 本 书 例子 中 的 学 生成 绩 数据 xscj.csv， 以 性 别 、 学 号 、 期 末 考 试 为 指标 ， 绘 制 天 于 期 末 考 试 的 三 维 图 ， 分 析 哪 些 学 生成 绩 比较 好 。 


第 / 草 假设 检验 与 回归 模型 案例 


75 假设 检验 


假设 检验 是 除 参数 估计 之 外 的 另 一 类 重要 的 统计 推断 问题 ， 它 认为 小 概率 事件 在 一 次 试验 中 几乎 是 不 可 能 发 生 的 ， 即 : 对 总 体 的 某 个 假设 是 真实 的 ， 那 么 不 利于 或 不 能 支持 这 一 假设 的 事件 在 一 次 试验 
中 几乎 是 不 可 能 发 生 的 ， 要 是 在 一 次 试验 中 小 概率 事件 发 生 了 ， 那 么 就 有 理由 怀疑 这 一 假设 的 真实 性 ， 拒 绝 这 一 假设 。 具 体 来 说 ， 想 检验 其 正确 性 的 称 为 零 假 设 (null hypothesis) ， 零 假设 通常 反映 的 是 
研究 者 对 未 知 参数 的 看 法 ， 相 对 于 零 假设 的 其 他 论述 则 是 对 立 假设 (alternative hypothesis) ， 它 反映 了 执行 检验 者 对 参数 可 能 数值 的 对 立 的 看 法 ， 也 就 是 说 ， 对 立 假 设 通常 才 是 研究 者 最 想 知 道 的 。 


假设 检验 的 过 程 ， 可 以 用 法 庭审 理 的 例子 来 说 明 : 如 果 现在 法 庭 上 有 一 名 被 告 ， 假 设 该 被 告 是 清白 的 ， 那 么 检察 官 必 须要 提出 足够 的 证 据 证 明 被 告 的 确 有 罪 。 在 证 明 被 告 有 罪 前 ， 被 告 是 被 假设 为 清白 
的 ， 假 设 被 告 是 清白 的 这 个 假设 ， 就 相当 于 零 假 设 ， 假 设 被 告 是 有 罪 的 这 个 假设 ， 则 是 对 立 假设 。 检 察 官 提 出 的 证 据 ， 是 否 足以 确定 该 被 告 有 和 罪 ， 则 需要 经 过 检验 。 
7.1.1 二 项 分 布 假设 检验 

考察 由 n 次 随机 试验 组 成 的 随机 现象 ， 它 要 同时 满足 以 下 条 件 : 

' 重复 进行 n 次 随机 试验 。 

C n 次 试验 相互 独立 。 

© 每 次 试验 仅 有 两 个 可 能 的 结果 。 


. 每 次 试验 成 功 的 概率 为 p， 失 败 的 概率 为 1-p。 


在 二 项 分 布 中 ， 设 有 K 次 成 功 和 n-k 次 失败 ，k 次 成 功 可 以 出 现 于 n 次 试验 的 任何 一 次 ，n 次 试验 中 正好 得 到 k 次 成 功 的 概率 如 下 : 


үг n k n-k 
Рг(К=/0)={ |p (1-p) 


. и 


在 假设 检验 中 ， 经 常 遇 到 非 正 态 总 体 的 统计 数据 ， 这 类 数据 可 使 用 二 项 分 布 的 总 体 假设 检验 方法 ， 下 面 以 实例 进行 讲解 。 
1. 游 戏 策略 调整 


某 游戏 的 某 区 域内 经 常 发 生 暴力 PK 事件 ， 从 而 给 在 这 个 区 域内 做 任务 的 新 手 玩家 和 某 些 老 玩家 带 来 了 很 多 困扰 ， 以 往 发 生 这 类 事件 的 概率 为 25%， 对 这 个 区 域 的 游戏 策略 进行 调整 后 ， 随 机 抽取 了 300 
多 个 玩家 进行 测试 ， 结 果 有 20 个 被 迫 卷 入 暴力 PK， 那 么 这 个 游戏 策略 的 调整 是 否 有 效 ? 











> binom. test (x=20,n=300,p=0.25,alternative="less") 
Exact binomial test 
data: 20 and 300 
number of successes = 20, number of trials = 300, p-value < 2.2e-16 
alternative hypothesis: true probability of success is less than 0.25 
95 percent confidence interval: 

0.00000000 0.09540198 

sample estimates: 
probability of success 

0.06666667 












































这 里 将 原 假 设 H0 设 为 p>0.25， 而 备 择 假设 H1 设 为 p<0.25。 观 察 以 上 结果 ， 在 95% 的 置信 率 基 础 上 ，p 值 <2.2e-16<0.05， 因 此 可 以 认为 该 游戏 策略 的 调整 对 维护 这 个 区 域 的 秩序 起 到 了 一 定 的 效果 。 


2. 游 戏 宝 石 出 产检 测 


某 网 络 游戏 中 有 一 区 域 为 宝石 采矿 区 ， 玩 家 在 此 开采 宝石 的 比例 应 为 高 级 宝石 : 中 级 宝石 : 低级 宝石 =3 : 11: 23， 抽 取 671 个 玩家 的 采矿 记录 ， 开 采 数 量 为 70 : 190 : 411， 请 问 实际 出 产 比 例 是 否 符合 
理论 要 求 ? 


> chisq.test(c(70,190,411),p=c(3,11,23)/37) 
Chi-squared test for given probabilities 

data: с(70, 190, 411) 

X-squared = 5.0106, df = 2, p-value = 0.08165 














观察 以 上 结果 ，p 值 为 0.08165， 结 果 大 于 0.05 接 受 原 假设 ， 实 际 出 产 比 例 符合 理论 要 求 。 


7.1.2 ”数据 分 布 检验 


1. 正 态 分 布 检测 


使 用 shapiro.test 阔 数 可 检测 数据 的 正 态 分 布 。 例 如 ， 设 显著 性 水 平 为 0.05， 检 查 以 下 数据 是 否 为 正 态 分 布 。 


12,22,67,89,56,10,124,235,77,88,66,779,80,82 


R 代 码 如 下 : 


> x«-c(12,22,67,89,56,10,124,235,777, 88, 66,79,80, 82) 
» shapiro.test (x) 


Shapiro-Wilk normality test 





data: x 
W — 0.8173, p-value - 0.008236 


观察 以 上 结果 ，p 值 小 于 显著 性 水 平 0.05， 因 此 可 拒绝 原 假设 ， 因 为 原 假设 为 符合 正 态 分 布 ， 因 此 可 认为 该 数据 不 符合 正 态 分 布 。 


再 来 看 一 个 例子 ， 如 下 面 R 代 码 所 示 : 


> shapiro.test(rnorm(100, mean = 5, sd = 3)) 


Shapiro-Wilk normality test 





data:  rnorm(100, mean = 5, sd = 3) 
W = 0.9914, p-value = 0.7787 


观察 以 上 结果 ，p 值 大 于 显著 性 水 平 0.05， 不 能 拒绝 原 假设 ， 因 此 可 认为 该 数据 符合 正 态 分 布 。 


2.Kolmogorov-Smirnov 检 验 


解 。 


Kolmogorov-smirnov 检 验 (K-S 检 验 ) 基于 累积 分 布 遂 数 ， 用 于 检验 一 个 经 验 分 布 是 否 符合 某 种 理论 分 布 或 比较 两 个 经 验 分 布 是 否 有 显著 性 差异 。 下 面 以 对 某 后 台 服 务 程序 的 稳定 性 检测 为 例 进 行 讲 


现 对 某 服务 器 的 某 后 台 服 务 程序 进行 稳定 性 检测 ， 记 录 8 次 无 故障 稳定 工作 的 小 时 数 ， 分 别 为 : 240、180、320、190、160、60、400、340， 经 估计 它 符合 =1/290 的 指数 分 布 ， 下 面 来 验证 一 下 稳定 


性 的 分 布 : 


> ks.test (servtime, "pexp", 1/290) 





One-sample Kolmogorov-Smirnov test 





data:  servtime 
D = 0.299, p-value = 0.394 
alternative hypothesis: two-sided 





观察 以 上 结果 ，p 值 >0.05， 无 法 拒绝 原 假设 ， 因 此 无 故障 稳定 工作 小 时 数 符合 该 分 布 。 
提示 : R 语 言 中 ，pexp 是 一 个 指数 分 布 函 数 ， 指 数 分 布 有 以 下 系列 的 R 国 数 : 

dexp 给 出 了 密度 : dpexp(x, rate=1, t=0, logc FALSE) 

pexp 给 出 了 分 布 函数 : ppexp(q, rate=1, t=0, lower.tail=TRUE, log.p=FALSE) 
qexp 给 出 了 分 位 数 功 能 : арехр(р, rate=1, t=0, lower.tail=TRUE, log.p=FALSE) 


- rexp 给 出 了 随机 产生 的 偏离 : rpexp(n, rate-1, t=0) 


7.1.3 ”正人 态 忆 体 均值 检验 


假设 某 游戏 服务 器 接受 游戏 客户 端 发 来 的 报告 ， 内 容 是 某 场景 载 入 时 间 的 报告 ( 载 入 时 间 符 合 正 态 分 布 ) ， 平 均 载 入 时 间 要 求 小 于 225。 现 提取 报告 的 部 分 数据 ， 检 验 载 入 时 间 是 否 正常 ， 设 显著 性 水 


平 为 0.05， 用 R 语 言 分 析 ， 代 码 如 下 (x 为 时 间 ) : 


data: x 
t = -2.5922, df = 17, p-value = 0.009493 
alternative hypothesis: true mean is less than 225 


data: x 
t = -2.5922, df = 17, p-value = 0.9905 
alternative hypothesis: true mean is greater than 225 


mean or 


» x«-c(220,218,210,220,215,221,212,225,209,230,180,182,150,190,230,227,240, 225) 
> t.test(x, alternative = "less", mu = 225) 

















One Sample t-test 

















95 percent confidence interval: 
-Inf 220.5051] 
sample estimates: 














mean or x 


211.3333 


观察 上 述 结果 ，p 值 为 0.009493， 小 于 显著 性 水 平 0.05， 有 理由 拒绝 原 假设 ， 原 假设 为 平均 载 入 时 间 大 于 225， 因 此 ， 可 选择 备 择 假设 ， 即 : 平均 载 入 时 间 小 于 225。 


也 可 将 平均 载 入 时 间 大 于 225 设 为 备 择 假设 ， 而 平均 载 入 时 间 小 于 225 设 为 原 假设 ， 用 R 语 言 分 析 ， 代 码 如 下 : 





> t.test(x, alternative = "greater", mu = 225) 
One Sample t-test 























95 percent confidence interval: 
202.1616 Inf 
sample estimates: 

















x 
211.3333 


观察 上 述 结果 ，p 值 为 0.9905， 大 于 显著 性 水 平 0.05， 无 法 拒绝 原 假设 ， 原 假设 为 平均 载 入 时 间 小 于 225， 因 此 ， 可 认为 平均 载 入 时 间 小 于 225， 载 入 时 间 正 常 。 
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列 联 表 是 观测 数据 按 两 个 或 更 多 个 属性 (定性 变量 ) 分 类 时 所 列 出 的 频数 表 。 比 如 : 对 随机 抽取 的 1000 人 按 性 别 ( 男 或 女 ) 及 色觉 (正常 或 色盲 ) 两 个 属性 分 类 ， 可 以 得 到 如 表 7-1 所 示 的 二 行 二 列 的 


列 联 表 。 


表 7-1 性 别 与 色觉 列 联 表 


行 和 


(Et 
ak 
hi 
i 


m 4 


列 和 480 520 1000 


下 面 以 满意 度 列 联 表 为 例 进行 讲解 ， 表 7-2 是 某 类 商品 价格 与 客户 满意 度 的 列 联 表 。 
























110 
1000 ~ 3000 64 
73000 122 
合计 296 
п] ЧУҢ АУТА Ба BRA ERECTA T, EREA PRIN chisq.testER сБ: 
> c(20,56,34,10,33,21,32,66,24) ->х 
> c(3,3) -»dim(x) 
> x 
[1 [,2] [,3] 
[1 20 10 32 
[2,] 56 33 66 
[37] 34 21 24 
E chisq.test (х) 
Pearson's Chi-squared test 
data: x 
X-squared = 6.8985, df = 4, p-value = 0.1413 
观察 以 上 结果 ，p>0.05 说 明 不 拒绝 原 假设 ， 两 个 变量 独立 无 天 ， 价 格 与 客户 的 满意 度 之 间 没 有 关系 。 
此 外 ， 当 列 联 表 中 有 频数 低 于 4 时 ， 最 好 使 用 fisher 进 行 精确 检测 。 例 如 : 某 网 上 商场 对 某 种 高 档 商品 进行 了 一 次 短期 的 测试 ， 验 证 自动 导购 系统 的 有 效 性 ， 商 场 分 别提 供 了 普通 购买 通道 和 自动 导购 系 


统 通道 ， 表 7-3 为 该 测试 的 列 联 表 。 


表 7-3 ”高 档 商品 测试 列 联 表 


成 功 购买 未 购买 合计 





对 表 7-3 的 数据 进行 fisher 检 测 ，R 语 言 代 码 如 下 : 





> c(11,3,9,12) -» 
> dim(x)«-c(2,2) 
» fisher.test (x) 
Fisher's Exact Test for Count Data 








data: x 
p-value = 0.04614 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
0.8730177 33.8560814 
sample estimates: 
odds ratio 
4.662271 
> 























观察 以 上 结果 ，p< 0.05 拒 绝 原 假设 ， 因 此 认为 自动 导购 系统 有 效 ，odds ratio> 1 表示 存在 正 相 关 关 系 ， 即 通过 自动 导购 系统 通道 进入 的 顾客 越 多 ， 该 商品 的 购买 率 就 越 大 。 
7.1.5 ”符号 检测 
符号 检测 通过 观察 样本 值 与 总 体 中 某 个 位 置 (比如 中 位 数 ) 的 差 实 现 ， 将 样本 观察 值 与 总 体 中 位 数 的 差 之 间 的 关系 用 符号 表示 为 大 于 、 小 于 或 正 、 负 关系 ， 从 而 进行 检测 。 


1. 某 商场 VIP 客户 信息 推送 


以 某 商 场 VIP 客 户 广告 推送 为 例 ， 某 商场 需要 针对 某 类 商品 建立 该 类 商品 的 VIP 大 客户 ， 以 便 定 期 向 该 类 客户 推送 相关 广告 。 客 户 服务 部 门 推荐 了 客户 A， 从 数据 库 中 随机 抽取 了 100 个 客户 资料 ， 统 计 他 
们 前 4 个 季度 的 平均 季 消 费 数据 (在 这 里 用 平均 随机 数 模拟 数据 ) ， 检 测 客户 A 的 平均 季 消 费 是 否 处 于 中 上 水 平 (位 于 中 位 数 以 上 ) 。 首 先 ， 构 造 数据 ，R 语 言 代 码 如 下 : 























> sample (200:50000,100)->sale 
> sale 

[1] 8447 13987 8809 44437 22973 28093 30594 28060 21101 45155 36128 30129 
556 33977 9283 35094 903 32885 11639 15533 29150 47368 4993 5376 

















] 

] 1869 15975 25120 33530 31767 41845 39623 3586 22671 16128 14814 24993 
] 45830 10349 43989 35650 45179 35282 27204 5485 22990 21475 14533 42852 
] 15986 28411 16683 15832 27207 19062 10256 34549 46159 16315 43097 40038 
































[61] 27758 14936 26161 18694 25139 13208 26837 30171 13663 14082 46909 26498 
[73] 7830 35810 15183 41769 8880 47928 13387 33231 28978 39486 0309 19344 
[85] 
[97] 





























12935 41976 13429 16291 31159 33646 1742 48160 43169 40165 38915 24941 
25181 30077 19475 26836 

















> 


然后 ， 使 用 sum(sale> 29900) 表 示 所 有 大 于 该 客户 平均 消费 水 平 的 样本 数 ， 进 行 binom.test 检 测 : 





> binom.test (sum(sale»29900),length (sale),al-"less") 

Exact binomial test 

data:  sum(sale > 29900) and length (sale) 

number of successes = 38, number of trials = 100, p-value = 0.01049 

alternative hypothesis: true probability of success is less than 0.5 
95 percent confidence interval: 
0.0000000 0.4667535 

sample estimates: 

probability of success 

0.38 





















































> 
95 percent confidence interval: 
0.0000000 0.4667535 











这 里 ，binom.test 使 用 的 是 二 项 分 布 Bb (100，1/2) 的 检测 ， 每 次 抽样 要 么 M> =M0， 要 么 M<M0， 成 功 的 概率 为 /2， 即 在 中 位 数 以 上 ( 含 中 位 数 ) 和 中 位 数 以 下 的 概率 均 为 0.5。 单 侧 区 间 估 计 的 上 
界 为 0.4667535， 小 于 原 假设 出 现 的 概率 0.5， 因 此 拒绝 了 原 假设 。 


本 例 中 的 假设 为 : H0M>=M0，H1:M<M0。 其 中 ，M0 为 该 客户 的 消费 金额 ，M 为 样本 的 中 位 数 ， 代 表 平 均 消 费 水平 ， 原 假设 为 平均 消费 水 平 比 该 客户 的 消费 金额 大 ， 备 择 假 设 为 平均 消费 水 平 比 该 
客户 的 消费 金额 小 ， 如 果 备 择 假设 成 立 ， 则 代表 拒绝 原 假设 ， 且 该 客户 在 这 类 商品 的 消费 能 力 处 于 中 上 。 


最 后 ， 观 察 binom.test 分 析 结 果 的 p 值 ， 它 等 于 0.01049， 小 于 0.05， 拒 绝 原 假设 ， 再 观察 95% 的 置信 区 间 (95 percent confidence interval) ， 其 上 限 为 0.4667535， 低 于 0.5， 仍 拒绝 原 假设 ， 
此 ， 该 客户 的 消费 金额 高 于 该 类 商品 的 客户 中 间 水 平 ， 处 于 中 上 层 消费 ， 可 以 考虑 将 其 设 为 VIP 客户 。 


Que :am 画 数 的 参数 可 设置 条 件 ， 完 成 条 件 计数 功能 。 比 如 下 面 的 代码 : 


> x«-c(1,3,9,20,41) 

> X>7 

[1] FALSE FALSE TRUE TRUE TRUE 
> sum(x»7) 

[1] 3 


























2. 虚 拟 道具 促销 
某 游戏 公司 对 X 游 戏 的 某 类 虚拟 道具 进行 了 为 期 6 周 的 促销 测试 ， 以 增加 其 销量 ， 采 用 了 以 下 两 种 促销 手段 ， 请 问 这 两 种 促销 手段 的 效果 相同 吗 ， 如 果 效 果 相 同 ， 则 可 以 定期 采用 这 两 种 促销 手段 ， 搞 类 
似 的 促销 活动 ， 数 据 如 表 7-4 所 示 。 


表 7-4 相对 未 促销 前 两 种 促销 手段 所 增加 的 销量 


RAFA CT 


编写 R 代 码 如 下 : 


Un 





> a«-c(50,60,45,62,48,59) 
> b«-c(39,68,58,64,52,61) 
> binom.test (sum (а>р) , length (a) ) 
Exact binomial test 
data:  sum(a > b) and length (а) 
number of successes = 1, number of trials = 6, p-value = 0.2188 
alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval: 
0.004210745 0.641234579 
sample estimates: 
probability of success 
0.1666667 
























































> 


观察 以 上 结果 ，p 值 为 0.1666667， 大 于 0.05， 不 能 拒绝 原 假 设 ， 原 假设 是 促销 手段 A 的 销量 增加 数 比 促销 手段 B 多 ， 且 有 明显 差距 ， 因 此 可 认为 ，A 比 B 的 促销 效果 好 。 
Quum asb rak Fb kE, 


sum(a<b) 表 示 a 小 于 b 的 数量 。 


3. 某 商场 顾客 群 分 析 


某 网 上 商场 对 购买 A 类 商品 的 顾客 群 进行 分 析 ， 发 现 他 们 更 喜欢 同时 购买 B 类 或 C 类 商品 ， 下 面 随机 抽取 了 其 中 的 20 个 顾客 作为 样本 ， 购 买 B 类 商品 的 为 b， 购 买 C 类 商品 的 为 c，1 表 示 购 买 ，0 表 示 没 购 
买 。 部 分 数据 如 表 7-5 所 示 。 (完整 数据 可 参见 本 书 源码 包 的 sale3.csv 文 件 。) 


表 7-5 顾客 群 购买 情况 


b C 
l 0 
l 0 
0 1 


b C 
1 0 
1 0 
1 0 


可 将 原 假设 定 为 这 类 顾客 群 更 喜欢 同时 购买 C 商 品 ， 而 备 择 假 设 是 更 喜欢 同时 购买 B 商 品 。 此 外 ， 以 95% 的 置信 度 进行 检测 ， 显 著 水 平 取 0.05。 编 写 如 下 R 代 码 : 


> read.csv("sale3.csv")-»mysale 
> c count«-sum(mysale$b--0 & mysaleS$c--1) 
> b count«-sum(mysale$b--1 & mysaleS$c--0) 
> binom.test(c count,b count+c count,p-1/2,al-"less",conf.level-0.95) 
Exact binomial test 
data: c count and b count + c count 




















number of successes = 4, number of trials = 17, p-value = 0.02452 
alternative hypothesis: true probability of success is less than 0.5 
95 percent confidence interval: 

0.0000000 0.4605494 

sample estimates: 
probability of success 
0.2352941 
























































> 


分 析 上 述 结果 ，p=0.02452，p 值 小 于 0.05(100%-95%=5%=0.05)， 可 拒绝 原 假设 (更 喜欢 同时 购买 C 商 品 ) ， 而 备 择 假设 成 立 ， 购 买 A 商 品 的 客户 更 喜欢 同时 购买 B 商 品 。 同 时 可 以 看 到 单 侧 区 间 上 界 
730.4605494 ( 低 于 0.5) ， 这 里 也 表明 要 拒绝 原 假设 。 


@ == 该 案例 中 ， 同 时 购买 B 和 C 商 品 的 客户 不 用 列 入 样本 容量 进行 计算 。 
7.1.6 ” 秩 相 关 检 验 


1.spearman 秩 相关 检验 


spearman 秩 相关 检验 根据 计算 得 到 的 秩 统计 量 产 生 秩 相关 系数 r， 相互 独立 时 ，E(r)=0; 正 相关 时 ，[ 为 正 值 ; 负 相关 时 ，[ 为 负 值 ; 可 检测 分 布 无 关 性 。 下 面 对 某 商品 每 周 的 点 击 次 数 与 每 周 的 销量 进 
行 统计 ， 表 7-6 是 连续 6 周 的 统计 数据 。 


表 7-6 ”每 周 的 点 击 次 数 与 销量 





点 击 次 数 520 
销量 210 
编写 R 代 码 如 下 : 


> sales«-c(150,210,90,190,230,211) 
> hits«-c(310,480,190, 400,590, 520) 
> cor.test (hits,sales,method-"spearman") 
Spearman's rank correlation rho 
data: hits and sales 
S = 0, p-value = 0.002778 
alternative hypothesis: true rho is not equal to 0 
sample estimates: 
rho 
I 
> 





























观察 以 上 结果 ，p 值 0.002778<0.05， 因 此 拒绝 原 假 设 ， 认 为 两 个 变量 是 相关 的 。 此 外 ，rho> 1 表示 正 相 关 ，rho< 1 表示 负 相 关 ，E(rho)= 0 表示 相 互 独立 无 关 。 综 上 所 述 ， 每 周 的 点 击 次 数 与 每 周 的 销量 
是 正 相 关 的 ， 点 击 的 次 数 越 多 ， 销 量 就 越 多 。 


2.Wilcoxon 秩 检验 


Wilcoxon 秩 检验 考虑 了 符号 检测 (如 样本 观测 值 与 总 体 中 位 数 差 的 符号 ) ， 而 且 考 虑 了 观测 值 与 原 假设 某 位 置 的 具体 差距 的 大 小 。 


以 购物 网 站 的 网 页 改版 为 例 进行 讲解 ， 假 设 购物 网 站 对 某 类 商品 的 访问 网 页 进行 了 改版 ， 并 能 同时 保留 改版 前 的 网 页 和 改版 后 的 网 页 供 顾客 选择 浏览 ， 通 过 一 段 时 间 的 测试 后 ， 对 通过 两 种 网 页 进行 购 
买 的 行为 进行 分 析 ， 抽 取 其 中 的 7 个 商品 进行 检测 ， 查 看 改版 的 效果 。 销 量 如 表 7-7 所 示 。 


#77 网 页 改版 前 后 的 销量 数据 


某 类 商品 的 所 有 编号 网 页 改版 前 的 销量 网 页 改版 后 的 销量 


10001 380 530 
10002 410 500 
10003 290 506 


首先 ， 检 测 网 页 改版 后 该 类 商品 的 销量 提升 是 否 达 到 了 期 待 的 水 平 ， 即 销量 中 位 数 在 400 以 上 。 设 定 原 假设 为 销量 提升 达到 期 待 水 平 ， 该 类 商品 中 有 一 半 商 品 的 销量 在 400 以 上 ( 即 销量 中 位 数 在 400 以 


+) ， 而 备 择 假 设 为 销量 中 位 数 在 400 以 下 。R 代 码 如 下 : 


»sales«-c(530,500,506,497,280,388,124) 
»wilcox.test(sales,mu-400,alternative-"less",correct-FALSE,exact-FALSE, conf. 
int-TRUE) 
Wilcoxon signed rank test 
data: sales 
V = 15, p-value = 0.5671 
alternative hypothesis: true location is less than 400 
95 percent confidence interval: 
-Inf 506.0001 

sample estimates: 
(pseudo) median 

406.0668 
























































> 


p 值 为 0.5671，P>0.05， 不 能 拒绝 原 假 设 ， 再 观察 置信 度 为 95% 的 区 间 的 估计 上 限 为 506.001。 因 此 ， 销 量 中 位 数 在 改版 后 达到 了 400 以 上 。 
a 以 上 代码 中 ，altetnative 表 示 备 择 假设 ，cottect 表 示 在 计算 P 值 时 是 否 采 用 连续 性 修正 ，exact 表 示 是 否 精确 计算 P 值 ，confint 设 定 是 否 输出 置信 区 间 。 


那 能 不 能 再 乐观 些 ， 销 量 中 位 数 能 否 达 到 600 以 上 呢 ” 编写 如 下 R 代 码 进行 检测 : 

















> wilcox.test(sales,mu-600,alternative-"less",correct-FALSE,exact-FALSE, conf. 
int-TRUE) 
Wilcoxon signed rank test 
data: sales 
V = 0, p-value = 0.00898 
alternative hypothesis: true location is less than 600 
95 percent confidence interval: 
-Inf 506.0001 

sample estimates: 
(pseudo) median 

406.0668 






































> 


p=0.00898 小 于 0.05， 显 然 需要 拒绝 原 假设 (销量 中 位 数 大 于 600) ， 不 能 如 此 乐观 地 将 销量 中 位 数 估计 到 600 以 上 。 
然后 ， 验 证 新 版 网 页 是 否 提高 了 该 类 商品 的 销量 。R 代 码 如 下 : 


> salesnew«-c (530,500,506,497,280,388,124) 

> salesold«-c(380,410,290,375,186,300,900) 

» wilcox.test (salesnew,salesold,alternative-"greater",paired-TRUE 
Wilcoxon signed rank test 

data:  salesnew and salesold 

V = 28, p-value = 0.007813 

alternative hypothesis: true location shift is greater than 0 








— 














-— 
= 


观察 上 述 结果 ， 可 以 看 出 ， 原 假设 为 新 版 网 页 与 老 版 网 页 效果 相同 ， 备 择 假设 为 新 版 网 页 能 提高 销量 。p= 0.007813， 小 于 0.05， 因 此 拒绝 原 假设 ， 新 版 网 页 能 提高 该 类 商品 的 销量 。 
Quz забита, TRUER БЕЛОН. 


下 面 以 某 游戏 的 区 域 策略 调整 为 例 ， 假 设 某 游戏 在 某 区 域内 调整 了 策略 (更 新 地 图 、 怪 物 等 ) ， 使 该 区 域 相对 于 B 职 业 玩家 来 说 ， 更 适合 于 A 职业 玩家 进行 升级 和 活动 ， 游 戏 开发 商 对 在 该 游戏 区 域内 活 
动 的 A 职业 玩家 和 B 职 业 玩家 采取 了 随机 有 奖 问卷 方式 ， 收 集 该 区 域 的 活动 满意 度 ， 调 查 评分 (满分 为 100 分 ) 如 表 7-8 所 示 。 


表 7-8 两 类 职业 玩家 满意 度 调查 表 





将 原 假设 HO 设 为 调整 策略 后 ，A 职 业 玩 家 与 B 职 业 玩家 无 差异 ， 备 择 假设 H1 是 A 职业 玩家 比 B 职 位 玩家 更 满意 。R 代 码 如 下 : 


> a«-c(80,96,84,79,81,92,775,85) 

> b«-c(68,75,771,92, 66) 

> wilcox.test(a,b,alternative-"greater",exact-FALSE, correct-TRUE 
Wilcoxon rank sum test with continuity correction 

data: a and b 

W = 33, p-value = 0.03326 

alternative hypothesis: true location shift is greater than 0 








— 





























观察 上 述 检测 结果 ，p=0.03326< 0.05， 因 此 拒绝 原 假设 ， 游 戏 策略 调整 效果 较 显 著 ，A 职 业 玩家 更 愿意 在 该 区 域内 活动 和 升级 。 


7.1.7 Kendall 相 关 检 验 


Kendall 相 关 检 验 通 过 协同 进行 检测 ， 设 x 和 y 两 个 变量 进行 检测 ， 如 果 (xj-xi)(yj-yi)>0， 则 称 对 子 (xi，yi)、(Xj，j) 有 同样 的 倾向 ;， 反 之， 如 果 (xj-xi)Yj-yi) <0， 则 称 对 子 是 不 协同 的 。 通 过 将 协同 对 子 代入 
Kendall 相 关系 数 ， 再 计算 变量 之 间 的 相关 性 。 对 表 7-6 的 数据 进行 分 析 ， 首 先 ， 构 造 数据 。R 代 码 如 下 : 





> sales«c(150,210,90,190,230,211) 
> hits«-c (310,480,190,400, 590, 520) 


然后 ， 将 method 参 数 设 为 kendall， 进 行 分 析 : 


> cor.test(hits,sales,method="kendall") 
Kendall's rank correlation tau 
data: hits and sales 
T = 15, p-value = 0.002778 
alternative hypothesis: true tau is not equal to 0 
sample estimates: 
tau 














1 


观察 以 上 结果 ， 结 论 仍 是 正 相 关 ，p 值 0.002778 小 于 0.05， 因 此 拒绝 原 假 设 。 


第 / 草 假设 检验 与 回归 模型 案例 


74 假设 检验 


假设 检验 是 除 参数 估计 之 外 的 另 一 类 重要 的 统计 推断 问题 ， 它 认为 小 概率 事件 在 一 次 试验 中 几乎 是 不 可 能 发 生 的 ， 即 : 对 总 体 的 某 个 假设 是 真实 的 ， 那 么 不 利于 或 不 能 支持 这 一 假设 的 事件 在 一 次 试验 
中 几乎 是 不 可 能 发 生 的 ， 要 是 在 一 次 试验 中 小 概率 事件 发 生 了 ， 那 么 就 有 理由 怀疑 这 一 假设 的 真实 性 ， 拒 绝 这 一 假设 。 具 体 来 说 ， 想 检验 其 正确 性 的 称 为 零 假 设 (null hypothesis) ， 零 假设 通常 反映 的 是 
研究 者 对 未 知 参数 的 看 法 ， 相 对 于 零 假设 的 其 他 论述 则 是 对 立 假设 (alternative hypothesis) ， 它 反映 了 执行 检验 者 对 参数 可 能 数值 的 对 立 的 看 法 ， 也 就 是 说 ， 对 立 假 设 通常 才 是 研究 者 最 想 知 道 的 。 


假设 检验 的 过 程 ， 可 以 用 法 庭审 理 的 例子 来 说 明 : 如 果 现 在 法 庭 上 有 一 名 被 告 ， 假 设 该 被 告 是 清白 的 ， 那 么 检察 官 必须 要 提出 足够 的 证 据 证 明 被 告 的 确 有 罪 。 在 证 明 被 告 有 罪 前 ， 被 告 是 被 假设 为 清白 
的 ， 假 设 被 告 是 清白 的 这 个 假设 ， 就 相当 于 零 假 设 ， 假 设 被 告 是 有 罪 的 这 个 假设 ， 则 是 对 立 假设 。 检 察 官 提出 的 证 据 ， 是 否 足 以 确定 该 被 告 有 罪 ， 则 需要 经 过 检验 。 
7.1.1 二 项 分 布 假设 检验 

考察 由 n 次 随机 试验 组 成 的 随机 现象 ， 它 要 同时 满足 以 下 条 件 : 

- 重复 进行 n 次 随机 试验 。 

.9 次 试验 相互 独立 。 

` 每 次 试验 仅 有 两 个 可 能 的 结果 。 

“ 每 次 试验 成 功 的 概率 为 p， 失 败 的 概率 为 1-p。 

在 上 述 四 个 条 件 下 ， 假 设 X 表 示 n 次 独立 重复 试验 中 成 功 出 现 的 次 数 ， 显 然 X 是 可 以 取 0，1，…，n 等 n+ 1 个 值 的 离散 随机 变量 ， 这 个 分 布 称 为 二 项 分 布 ， 记 为 Btn，Pp)。 


在 二 项 分 布 中 ， 设 有 Kk 次 成 功 和 n-k 次 失败 ，k 次 成 功 可 以 出 现 于 n 次 试验 的 任何 一 次 ，n 次 试验 中 正好 得 到 k 次 成 功 的 概率 如 下 : 


| n k, n—k 
Pr(&-K)- jP (1-p) 


在 假设 检验 中 ， 经 常 遇 到 非 正 态 总 体 的 统计 数据 ， 这 类 数据 可 使 用 二 项 分 布 的 总 体 假设 检验 方法 ， 下 面 以 实例 进行 讲解 。 
1. 游 戏 策略 调整 


某 游戏 的 某 区 域内 经 常 发 生 暴力 PK 事件 ， 从 而 给 在 这 个 区 域内 做 任务 的 新 手 玩家 和 某 些 老 玩家 带 来 了 很 多 困扰 ， 以 往 发 生 这 类 事件 的 概率 为 25%， 对 这 个 区 域 的 游戏 策略 进行 调整 后 ， 随 机 抽取 了 300 
多 个 玩家 进行 测试 ， 结 果 有 20 个 被 迫 卷 入 暴力 PK， 那 么 这 个 游戏 策略 的 调整 是 否 有 效 ? 





> binom. test (x=20,n=300,p=0.25,alternative="less") 
Exact binomial test 
data: 20 and 300 
number of successes = 20, number of trials = 300, p-value < 2.2e-16 
alternative hypothesis: true probability of success is less than 0.25 
95 percent confidence interval: 

0.00000000 0.09540198 

sample estimates: 
probability of success 

0.06666667 


















































这 里 将 原 假设 H0 设 为 p> 0.25， 而 备 择 假设 H1 设 为 p<0.25。 观 察 以 上 结果 ， 在 95% 的 置信 率 基础 上 ，p 值 <2.2e-16<0.05， 因 此 可 以 认为 该 游戏 策略 的 调整 对 维护 这 个 区 域 的 秩序 起 到 了 一 定 的 效果 。 
2 游戏 宝石 出 产检 测 
某 网 络 游戏 中 有 一 区 域 为 宝石 采矿 区 ， 玩 家 在 此 开采 宝石 的 比例 应 为 高 级 宝石 : 中 级 宝石 : 低级 宝石 =3 : 11 : 23， 抽 取 671 个 玩家 的 采矿 记录 ， 开 采 数 量 为 70 : 190 : 411， 请 问 实际 出 产 比 例 是 否 符合 


理论 要 求 ? 


> chisq.test(c(70,190,411),p=c(3,11,23)/37) 
Chi-squared test for given probabilities 

data: с(70, 190, 411) 

X-squared = 5.0106, df = 2, p-value = 0.081605 














观察 以 上 结果 ，p 值 为 0.08165， 结 果 大 于 0.05 接 受 原 假设 ， 实 际 出 产 比 例 符合 理论 要 求 。 


7.1.2 ”数据 分 布 检验 


1. 正 态 分 布 检测 


使 用 shapiro.test 阔 数 可 检测 数据 的 正 态 分 布 。 例 如 ， 设 显著 性 水 平 为 0.05， 检 查 以 下 数据 是 否 为 正 态 分 布 。 


12,22,67,89,56,10,124,235,77,88,66,779,80,82 


RABAT F: 


> x«-c(12,22,67,89,56,10,124,235,777,88,66, 79,80, 82) 
» shapiro.test (x) 
Shapiro-Wilk normality test 
data: x 
W — 0.8173, p-value = 0.008236 





观察 以 上 结果 ，p 值 小 于 显著 性 水 平 0.05， 因 此 可 拒绝 原 假设 ， 因 为 原 假设 为 符合 正 态 分 布 ， 因 此 可 认为 该 数据 不 符合 正 态 分 布 。 


再 来 看 一 个 例子 ， 如 下 面 R 代 码 所 示 : 


> shapiro.test(rnorm(100, mean = 5, sd = 3)) 
Shapiro-Wilk normality test 

data:  rnorm(100, mean = 5, sd = 3) 

W = 0.9914, p-value = 0.7787 





观察 以 上 结果 ，p 值 大 于 显著 性 水 平 0.05， 不 能 拒绝 原 假设 ， 因 此 可 认为 该 数据 符合 正 态 分 布 。 
2.Kolmogorov-Smirnov 检 验 


Kolmogorov-Smirnov 检 验 (K-S 检 验 ) 基于 累积 分 布 遂 数 ， 用 于 检验 一 个 经 验 分 布 是 否 符合 某 种 理论 分 布 或 比较 两 个 经 验 分 布 是 否 有 显著 性 差异 。 下 面 以 对 某 后 台 服 务 程序 的 稳定 性 检测 为 例 进 行 讲 
解 。 


现 对 某 服务 器 的 某 后 台 服 务 程序 进行 稳定 性 检测 ， 记 录 8 次 无 故障 稳定 工作 的 小 时 数 ， 分 别 为 : 240、180、320、190、160、60、400、340， 经 估计 它 符合 =1/290 的 指数 分 布 ， 下 面 来 验证 一 下 稳定 
性 的 分 布 : 





> ks.test (servtime, "pexp",1/290) 
One-sample Kolmogorov-Smirnov test 
data:  servtime 

D = 0.299, p-value = 0.394 

alternative hypothesis: two-sided 








观察 以 上 结果 ，p 值 >0.05， 无 法 拒绝 原 假设 ， 因 此 无 故障 稳定 工作 小 时 数 符合 该 分 布 。 
提示 : R 语 言 中 ，pexp 是 一 个 指数 分 布 函 数 ， 指 数 分 布 有 以 下 系列 的 R 国 数 : 

dexp 给 出 了 密度 : арехр(х, rate=1, t=0, log=FALSE) 

pexp 给 出 了 分 布 函数 : ppexp(q, rate=1, t=0, lower.tail=TRUE, log.p=FALSE) 
qexp 给 出 了 分 位 数 功 能 : арехр(р, rate=1, t=0, lower.tail=TRUE, log.p=FALSE) 


- rexp 给 出 了 随机 产生 的 偏离 : rpexp(n, rate-1, t=0) 


7.1.3 ”正人 态 忆 体 均值 检验 


假设 某 游戏 服务 器 接受 游戏 客户 端 发 来 的 报告 ， 内 容 是 某 场景 载 入 时 间 的 报告 ( 载 入 时 间 符 合 正 态 分 布 ) ， 平 均 载 入 时 间 要 求 小 于 225。 现 提取 报告 的 部 分 数据 ， 检 验 载 入 时 间 是 否 正常 ， 设 显著 性 水 
平 为 0.05， 用 R 语 言 分 析 ， 代 码 如 下 (x 为 时 间 ) : 





> x«-c(220,218,210,220,215,221,212,225,209,230,180,182,150,190,230,227,240,225) 
> t.test(x, alternative = "less", mu = 225) 
One Sample t-test 














data: x 
t = -2.5922, df = 17, p-value = 0.009493 
alternative hypothesis: true mean is less than 225 
95 percent confidence interval: 
-Inf 220.5051 

sample estimates: 
mean of x 
211.3333 





























==] 


观察 上 述 结果 ，p 值 为 0.009493， 小 于 显著 性 水 平 0.05， 有 理由 拒绝 原 假设 ， 原 假设 为 平均 载 入 时 间 大 于 225， 因 此 ， 可 选择 备 择 假设 ， 即 : 平均 载 入 时 间 小 于 225。 


也 可 将 平均 载 入 时 间 大 于 225 设 为 备 择 假设 ， 而 平均 载 入 时 间 小 于 225 设 为 原 假设 ， 用 R 语 言 分 析 ， 代 码 如 下 : 





> t.test(x, alternative = "greater", mu = 225) 
One Sample t-test 








data: x 
t = -2.5922, df = 17, p-value = 0.9905 

alternative hypothesis: true mean is greater than 225 
95 percent confidence interval: 

202.1616 Inf 
sample estimates: 
mean of x 

211.3333 
































观察 上 述 结果 ，p 值 为 0.9905， 大 于 显著 性 水 平 0.05， 无 法 拒绝 原 假 设 ， 原 假设 为 平均 载 入 时 间 小 于 225， 因 此 ， 可 认为 平均 载 入 时 间 小 于 225， 载 入 时 间 正 常 。 
714 JIKE 


列 联 表 是 观测 数据 按 两 个 或 更 多 个 属性 (定性 变量 ) 分 类 时 所 列 出 的 频数 表 。 比 如 : 对 随机 抽取 的 1000 人 按 性 别 ( 男 或 女 ) 及 色觉 (正常 或 色盲 ) 两 个 属性 分 类 ， 可 以 得 到 如 表 7-1 所 示 的 二 行 二 列 的 
列 联 表 。 


表 7-1 性 别 与 色觉 列 联 表 


m 
Ek 


男 行 和 


ARI 480 520 1000 


下 面 以 满意 度 列 联 表 为 例 进行 讲解 ， 表 7-2 是 某 类 商品 价格 与 客户 满意 度 的 列 联 表 。 


表 7-2 满意 度 与 价格 列 联 表 


比较 满意 满意 合计 











«1000 110 
1000 ~ 3000 64 
:3000 122 
合计 296 
ЖУА АУЕН КӨЛ IRR RECTO T, ТЕКЕН) сһіѕа.їеѕіра УБК: 
> c(20,56,34,10,33,21,32,66,24) ->x 
> с(3,3) -»dim(x) 
> х 
[1,1] 1,21 1,3] 
[1,] 20 10 32 
[2,1] 56 33 66 
[3] 34 21 24 
> 
> chisq.test (x) 
Pearson's Chi-squared test 
data: х 
X-squared = 6.8985, df = 4, p-value = 0.1413 
观察 以 上 结果 ，p> 0.05 说 明 不 拒绝 原 假设 ， 两 个 变量 独立 无 关 ， 价 格 与 客户 的 满意 度 之 间 没 有 关系 。 
此 外 ， 当 列 联 表 中 有 频数 低 于 4 时 ， 最 好 使 用 fisher 进 行 精确 检测 。 例 如 : 某 网 上 商场 对 某 种 高 档 商品 进行 了 一 次 短期 的 测试 ， 验 证 自动 导购 系统 的 有 效 性 ， 商 场 分 别提 供 了 普通 购买 通道 和 自动 导购 系 


统 通道 ， 表 7-3 为 该 测试 的 列 联 表 。 


表 7-3 高档 商品 测试 列 联 表 
成 功 购买 未 购买 合计 





Dp 
+ 
N 
ON 
UJ | 一 
Un 


对 表 7-3 的 数据 进行 fisher 检 测 ，R 语 言 代 码 如 下 : 


> c(11,3,9,12) 5x 

» dim(x)«-c(2,2) 

> fisher.test (х) 

Fisher's Exact Test for Count Data 








data: x 
p-value = 0.04614 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
0.8730177 33.8560814 
sample estimates: 
odds ratio 
4.662271 
» 



































观察 以 上 结果 ，p<0.05 拒 绝 原 假设 ， 因 此 认为 自动 导购 系统 有 效 ，odds ratio» 1 表示 存在 正 相 关 关 系 ， 即 通过 自动 导购 系统 通道 进入 的 顾客 越 多 ， 该 商品 的 购买 率 就 越 大 。 
7.1.5 ”符号 检测 
符号 检测 通过 观察 样本 值 与 总 体 中 某 个 位 置 (比如 中 位 数 ) 的 差 实现 ， 将 样本 观察 值 与 总 体 中 位 数 的 差 之 间 的 关系 用 符号 表示 为 大 于 、 小 于 或 正 、 负 关系 ， 从 而 进行 检测 。 


1. 某 商场 VIP 客户 信息 推送 


以 某 商 场 VIP 客 户 广告 推送 为 例 ， 某 商场 需要 针对 某 类 商品 建立 该 类 商品 的 VIP 大 客户 ， 以 便 定 期 向 该 类 客户 推送 相关 广告 。 客 户 服务 部 门 推荐 了 客户 A， 从 数据 库 中 随机 抽取 了 100 个 客户 资料 ， 统 计 他 
们 前 4 个 季度 的 平均 季 消 费 数 据 (在 这 里 用 平均 随机 数 模拟 数据 ) ， 检 测 客户 A 的 平均 季 消 费 是 否 处 于 中 上 水 平 (位 于 中 位 数 以 上 ) 。 首 先 ， 构 造 数 据 ，R 语 言 代码 如 下 : 


> sample (200:50000,100) ->Sale 

> sale 

[1] 8447 13987 8809 44437 22973 28093 30594 28060 21101 45155 36128 30129 
[13] 556 33977 9283 35094 903 32885 11639 15533 29150 47368 4993 5376 
[25] 1869 15975 25120 33530 31767 41845 39623 3586 22671 16128 14814 24993 
[37] 45830 10349 43989 35650 45179 35282 27204 5485 22990 21475 14533 42852 
[49] 15986 28411 16683 15832 27207 19062 10256 34549 46159 16315 43097 40038 
[61] 27758 14936 26161 18694 25139 13208 26837 30171 13663 14082 46909 26498 
[73] 7830 35810 15183 41769 8880 47928 13387 33231 28978 39486 6309 19344 
[85] 12935 41976 13429 16291 31159 33646 1742 48160 43169 40165 38915 24941 
[97] 25181 30077 19475 26836 




















































































































后 ， 使 用 sum(sale> 29900) 表 示 所 有 大 于 该 客户 平均 消费 水 平 的 样本 数 ， 进 行 binom.test 检 测 : 





> binom.test (sum(sale»29900),length (sale),al-"less") 

Exact binomial test 

data:  sum(sale > 29900) and length (sale) 

number of successes = 38, number of trials = 100, p-value = 0.01049 

alternative hypothesis: true probability of success is less than 0.5 
95 percent confidence interval: 
0.0000000 0.4667535 

sample estimates: 

probability of success 

0.38 





















































> 
95 percent confidence interval: 











0.0000000 0.4667535 


这 里 ，binom.test 使 用 的 是 二 项 分 布 Bb (100, 1/2) 的 检测 ， 每 次 抽样 要 么 M> =M0， 要 么 M<M0， 成 功 的 概率 为 /2， 即 在 中 位 数 以 上 ( 含 中 位 数 ) 和 中 位 数 以 下 的 概率 均 为 0.5。 单 人 出 区 间 估 计 的 上 
界 为 0.4667535， 小 于 原 假 设 出 现 的 概率 0.5， 因 此 拒绝 了 原 假设 。 


本 例 中 的 假设 为 : HO:M>=M0，H1:M <M0。 其 中 ，M0 为 该 客户 的 消费 金额 ，M 为 样本 的 中 位 数 ， 代 表 平均 消费 水 平 ， 原 假设 为 平均 消费 水 平 比 该 客户 的 消费 金额 大 ， 备 择 假设 为 平均 消费 水 平 比 该 
客户 的 消费 金额 小 ， 如 果 备 择 假设 成 立 ， 则 代表 拒绝 原 假设 ， 且 该 客户 在 这 类 商品 的 消费 能 力 处 于 中 上 。 


最 后 ， 观 察 binom.test 分 析 结 果 的 p 值 ， 它 等 于 0.01049， 小 于 0.05， 拒 绝 原 假设 ， 再 观察 959% 的 置信 区 间 (95 percent confidence interval) ， 其 上 限 为 0.4667535， 低 于 0.5， 仍 拒绝 原 假设 ， 因 
此 ， 该 客户 的 消费 金额 高 于 该 类 商品 的 客户 中 间 水 平 ， 处 于 中 上 层 消 费 ， 可 以 考虑 将 其 设 为 VIP 客户 。 


Que „яни, АННЕ, Ита: 


> x«-c(1,3,9,20,41) 

> x>7 

[1] FALSE FALSE TRUE TRUE TRUE 
> sum(x»7) 

[1] 3 





























2. 虚 拟 道具 促销 


某 游戏 公司 对 X 游 戏 的 某 类 虚拟 道具 进行 了 为 期 6 周 的 促销 测试 ， 以 增加 其 销量 ， 采 用 了 以 下 两 种 促销 手段 ， 请 问 这 两 种 促销 手段 的 效果 相同 吗 ， 如 果 效 果 相 同 ， 则 可 以 定期 采用 这 两 种 促销 手段 ， 搞 类 
似 的 促销 活动 ， 数 据 如 表 7-4 所 示 。 


表 7-4 相对 未 促销 前 两 种 促销 手段 所 增加 的 销量 
REFR FoR 
а [э а 1—8 


编写 R 代 码 如 下 : 


EA 
\ 
Cn 
— 


> а<-с (50,60,45, 62,48,59) 
> р<-с (39,68,58, 64,52,61) 
> binom.test (sum(a»b) , length (a) ) 
Exact binomial test 
data:  sum(a > b) and length (а) 
number of successes = 1, number of trials = 6, p-value - 0.2188 
alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval: 

0.004210745 0.641234579 

sample estimates: 
probability of success 

0.1666667 





















































> 


观察 以 上 结果 ，p 值 为 0.1666667， 大 于 0.05， 不 能 拒绝 原 假 设 ， 原 假设 是 促销 手段 A 的 销量 增加 数 比 促销 手段 B 多 ， 且 有 了 明显 差距 ， 因 此 可 认为 ，A 比 B 的 促销 效果 好 。 
a sum(a>b) 表 示 a 大 于 b 的 数量 ， 
sum(a<b) 表 示 a 小 于 b 的 数量 。 
3. 某 商场 顾客 群 分 析 


某 网 上 商场 对 购买 A 类 商品 的 顾客 群 进行 分 析 ， 发 现 他 们 更 喜欢 同时 购买 B 类 或 C 类 商品 ， 下 面 随机 抽取 了 其 中 的 20 个 顾客 作为 样本 ， 购 买 B 类 商品 的 为 b， 购 买 C 类 商品 的 为 c，1 表 示 购 买 ，0 表 示 没 购 
买 。 部 分 数据 如 表 7-5 所 示 。 (完整 数据 可 参见 本 书 源码 包 的 sale3.csv 文 件 。) 


表 7-5 顾客 群 购买 情况 


b C 
l 0 
1 0 
0 1 
1 0 
(Z ) 
b C 
] 0 
l 0 
] 0 


可 将 原 假设 定 为 这 类 顾客 群 更 喜欢 同时 购买 C 商 品 ， 而 备 择 假 设 是 更 喜欢 同时 购买 B 商 品 。 此 外 ， 以 95% 的 置信 度 进行 检测 ， 显 著 水 平 取 0.05。 编 写 如 下 R 代 码 : 


> read.csv("sale3.csv")-»mysale 

> c count«-sum(mysale$b--0 & mysale$c--1) 
> b count«-sum(mysale$b--1 & mysale$c--0) 
> binom.test(c count,b counttc count,p-1/2,al-"less",conf.level-0.95) 























Exact binomial test 
data: c count and b count + c count 
number of successes - 4, number of trials - 17, p-value - 0.02452 
alternative hypothesis: true probability of success is less than 0.5 
95 percent confidence interval: 

0.0000000 0.4605494 

sample estimates: 
probability of success 
0.2352941 


















































> 





分 析 上 述 结果 ，p=0.02452，p 值 小 于 0.05(100%-95%=5%=0.05)， 可 拒绝 原 假设 (更 喜欢 同时 购买 C 商 品 ) ， 而 备 择 假 设 成 立 ， 购 买 A 商 品 的 客户 更 喜欢 同时 购买 B 商 品 。 同 时 可 以 看 到 单 侧 区 间 上 界 
730.4605494 ( 低 于 0.5) ， 这 里 也 表明 要 拒绝 原 假设 。 


Qaz 该 案例 中 ， 同 时 购买 B 和 C 商 品 的 客户 不 用 列 入 样本 容量 进行 计算 。 
71.6 ” 秩 相 关 检 验 


1.spearman 秩 相关 检验 


spearman 秩 相关 检验 根据 计算 得 到 的 秩 统计 量 产 生 秩 相关 系数 r， 相互 独立 时 ，E(r)=0; EAX, AEA, 负 相关 时 ，[ 为 负 值 ; 可 检测 分 布 无 关 性 。 下 面 对 某 商品 每 周 的 点 击 次 数 与 每 周 的 销量 进 
行 统计 ， 表 7-6 是 连续 6 周 的 统计 数据 。 


表 7-6 ”每 周 的 点 击 次 数 与 销量 





编写 R 代 码 如 下 : 


> sales«-c(150,210,90,190,230,211) 
> hits«-c(310,480,190, 400,590, 520) 
> cor.test (hits,sales,method-"spearman") 
Spearman's rank correlation rho 
data: hits and sales 
S = 0, p-value = 0.002778 
alternative hypothesis: true rho is not equal to 0 
sample estimates: 
rho 
1 
> 




















观察 以 上 结果 ，p 值 0.002778<0.05， 因 此 拒绝 原 假设 ， 认 为 两 个 变量 是 相关 的 。 此 外 ，rho> 1 表示 正 相关 ，rho< 1 表示 负 相关 ，E(rho)= 0 表示 相互 独立 无 天 。 综 上 所 述 ， 每 周 的 点 击 次 数 与 每 周 的 销量 
是 正 相关 的 ， 点 击 的 次 数 越 多 ， 销 量 就 越 多 。 


2.Wilcoxon 秩 检验 


Wilcoxon 秩 检验 考虑 了 符号 检测 (如 样本 观测 值 与 总 体 中 位 数 差 的 符号 ) ， 而 且 考 虑 了 观测 值 与 原 假设 某 位 置 的 具体 差距 的 大 小 。 


以 购物 网 站 的 网 页 改版 为 例 进行 讲解 ， 假 设 购物 网 站 对 某 类 商品 的 访问 网 页 进行 了 改版 ， 并 能 同时 保留 改版 前 的 网 页 和 改版 后 的 网 页 供 顾客 选择 浏览 ， 通 过 一 段 时 间 的 测试 后 ， 对 通过 两 种 网 页 进行 购 
买 的 行为 进行 分 析 ， 抽 取 其 中 的 7 个 商品 进行 检测 ， 查 看 改版 的 效果 。 销 量 如 表 7-7 所 示 。 


表 7-7 网 页 改版 前 后 的 销量 数据 


某 类 商品 的 所 有 编号 网 页 改版 前 的 销量 网 页 改版 后 的 销量 
10001 380 530 
10002 410 500 
10003 290 506 
10004 375 497 
10005 186 280 
10006 300 388 
10007 124 


QN 
© 


首先 ， 检 测 网 页 改版 后 该 类 商品 的 销量 提升 是 否 达 到 了 期 待 的 水 平 ， 即 销量 中 位 数 在 400 以 上 。 设 定 原 假设 为 销量 提升 达到 期 待 水 平 ， 该 类 商品 中 有 一 半 商 品 的 销量 在 400 以 上 ( 即 销量 中 位 数 在 400 以 
+) , 而 备 择 假设 为 销量 中 位 数 在 400 以 下 。R 代 码 如 下 : 


>sales<-c(530,500,506,497,280,388,124) 
>wilcox.test (sales,mu=400,alternative="less",correct=FALSE,exact=FALSE,conf. 
int=TRUE) 
Wilcoxon signed rank test 
data: sales 
V = 15, p-value = 0.5671 
alternative hypothesis: true location is less than 400 
95 percent confidence interval: 
-Inf 506.0001 
sample estimates: 
(pseudo) median 
406.0668 
























































> 


p 值 为 0.5671，P>0.05， 不 能 拒绝 原 假 设 ， 再 观察 置信 度 为 95% 的 区 间 的 估计 上 限 为 906.001。 因 此 ， 销 量 中 位 数 在 改版 后 达到 了 400 以 上 。 


Qi 以 上 代码 中 ，altetnative 表 示 备 择 假 设 ，cottect 表 示 在 计算 P 值 时 是 否 采用 连续 性 修正 ，exact 表 示 是 否 精确 计算 P 值 ，conf'int 设 定 是 否 输 出 置信 区 间 。 


那 能 不 能 再 乐观 些 ， 销 量 中 位 数 能 否 达 到 600 以 上 呢 ” 编写 如 下 R 代 码 进行 检测 : 











> wilcox.test(sales,mu-600,alternative-"less",correct-FALSE,exact-FALSE, conf. 
int-TRUE) 
Wilcoxon signed rank test 
data: sales 
V = 0, p-value = 0.00898 
alternative hypothesis: true location is less than 600 
95 percent confidence interval: 
-Inf 506.0001 

sample estimates: 
(pseudo) median 

406.0668 












































> 


p=0.00898 小 于 0.05， 显 然 需要 拒绝 原 假设 (销量 中 位 数 大 于 600) , 


然后 ， 验 证 新 版 网 页 是 否 提 高 了 该 类 商品 的 销量 。R 代 码 如 下 : 


> salesnew<-c(530, 500, 506, 497,280,388,124) 

> salesold<-c(380, 410,290,375,186,300,60) 

> wilcox.test (salesnew,salesold,alternative="greater",paired=TRUE 
Wilcoxon signed rank test 

data: salesnew and salesold 

V = 28, p-value = 0.007813 

alternative hypothesis: true location shif 








— 











t is greater than 0 





观察 Y^ 


见 察 上 述 结果 ， 可 以 看 出 ， 原 假设 为 新 版 网 页 与 老 版 网 页 效果 相同 ， 备 择 假设 为 新 版 网 页 和 
Quz paired 参 数 表 示 样本 是 否 属于 成 对 样本 ，TRUE 表 示 是 成 对 样本 。 


股 某 游戏 在 某 区 域内 调整 了 策略 (更 新 地 图 、 怪 物 等 ) ， 


问卷 方式 ， 收 集 该 区 域 的 活动 满意 度 ， 调 查 评分 


下 面 以 某 游戏 的 区 域 策略 调整 为 例 ， 假 
动 的 A 职 业 玩 家 和 B 职 业 玩 家 采取 了 随机 有 奖 


表 7-8 两 类 职业 玩家 


得 高 销量 。p=0.007813， 小 于 0.05， 因 此 拒绝 原 假设 ， 新 版 网 页 外 


使 该 区 域 相 对 于 B 职 业 玩家 来 说 ， 更 适合 
(满分 为 100 分 ) 如 表 7-8 所 示 。 


不 能 如 此 乐观 地 将 销量 中 位 数 估计 到 600 以 上 。 


家 满意 度 调 查 表 





将 原 假设 H0 设 为 调整 策略 后 ，A 职 业 玩 家 与 B 职 业 玩家 无 差异 ， 备 择 假设 H1 


> a«-c(80,96,84,79,81,92,775,85) 

> b<-c(68,75,71,92, 66) 

> wilcox.test(a,b,alternative-"greater",exact-FALSE, correct-TRUE 
Wilcoxon rank sum test with continuity correction 

data: a and b 

W = 33, p-value = 0.03326 

alternative hypothesis: true location shif 














— 























t is greater than 0 





观察 上 述 


7.1.7 Kendall 相 关 检 验 


过 协同 进行 检测 ， 设 x 和 y 两 个 变量 进行 检测 ， 如 果 (xj-xi)(yj-yi)>0， 则 称 对 子 (xi，Vyi)、 
井 行 分 析 ， 首 先 ， 构 造 数据 。R 代 码 如 下 : 


Kendall 相 关 检 验 通 
Kendall 相 关系 数 ， 再 计算 变量 之 间 的 相关 性 。 对 表 7-6 的 数据 进 


> sales«c(150,210,90,190,230,211) 
> hits<-c (310,480,190, 400,590,520) 





然后 ， 将 method 参 数 设 为 kendall， 进 行 分 析 : 


> cor.test(hits,sales,method="kendall") 
Kendall's rank correlation tau 
data: hits and sales 
T = 15, p-value = 0.002778 
alternative hypothesis: true tau is not equal to 0 
sample estimates: 














观察 以 上 结果 ， 结 论 仍 是 正 相关 ，p 值 0.002778 小 于 0.05， 因 此 拒绝 原 假 设 。 


7.2 回归 模型 


回归 是 研究 一 个 随机 变量 Y 对 另 一 个 变量 (X) 或 一 组 变量 X1，X2 
来 求解 模型 的 各 个 参数 ， 并 评价 回归 模型 是 否 能 够 很 好 地 拟 合 实测 数据 。 


7.2.1 回归 预测 与 显著 性 检验 


下 面 按 方程 y=Bo+B1x+s 进 行 一 元 线性 回归 和 预测 。 
首先 ， 建 立 回归 模型 。R 代 码 如 下 : 


> x«-c(12,9,3, 7,17,19) 











> y«-c(28,20,8,13, 36, 39) 
m(y~1+x)->mylm. 1m 

_ Dm im 

Cal 














lm(formula = y ~ 1 + x) 





，Xk) 的 相依 关系 的 统计 分 析 方 法 ， 它 通 


是 A 职业 玩家 比 B 职 位 玩家 更 满意 。R 代 码 如 下 : 


舍 测 结果 ，p=0.03326<0.05， 因 此 拒绝 原 假设 ,游戏 策略 调整 效果 较 显 著 ， 人 A 职业 玩家 更 愿意 在 该 区 域内 活动 和 升级 。 


x, YARRA; 反之， 如果 (Xj-xi)(Yj-yi)<0， 则 称 对 子 是 不 协同 的 。 


前 过 规定 因 变 量 和 自 变量 的 关系 来 确定 变量 之 间 的 因果 关系 ， 建 立 回归 模型 


旨 高 该 类 商品 的 销量 。 


于 A 职业 玩家 进行 升级 和 活动 ， 游 戏 开发 商 对 在 该 游戏 区 域内 活 


通过 将 协同 对 子 代 入 


， 并 根据 实测 数据 













































































Coefficients: 
(Intercept) x 
1.284 2.034 
» summary (mylm.lm) 
Call: 
lm(formula = y ~ 1 + x) 
Residuals: 
1 2 3 4 5 6 
2.3048 0.4076 0.6132 -2.5239 0.1335 -0.9351 
Coefficients: 
Estimate Std. Error t value Pr(»|tl) 
(Intercept) 1.2840 1.6609 0.773 0.482617 
x 2.0343 0.1332 15.273 0.000107 *** 
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 Tat O.1 ' ' 1 
Residual standard error: 1.811 on 4 degrees of freedom 
Multiple R-squared: 0.9831, Adjusted R-squared: 0.9789 
F-statistic: 233.3 on 1 апа 4 DF, p-value: 0.0001072 


观察 以 上 结果 ， 从 summary 给 出 的 回归 模型 信息 可 以 看 出 ，Residuals 部 分 指出 x6 个 值 的 残 差 ，Coefficients 部 


2.0343， 其 标准 差 (Std.Error) 为 0.1332。 


然后 ， 指 定 


VM 


V mn ES 


观察 


2< 


此 外 ， 


myx«-da 





са. frame (x= 








predict 


41.96934 
58.24346 
39.93508 





(my] 
fit 





lwr 





33.78026 


自 变量 (хів) A, WASS (如 y 值 ) 进行 


c (20,28,19)) 


预测 ，R 代 码 如 下 : 








upr 


35.63207 48.30661 
49.98260 66.50432 
46.08989 


还 可 对 回归 模型 中 的 参数 进 


行 预测 。 


m.l1m,myx,interval-"prediction",level-0.95) 


以 一 元 线性 回归 模型 y=Bo+B1x+e 为 例 ，e 是 随机 误差 ， Bo 和 B1 是 参数 。 设 0 为 显著 水 平 ， 则 置信 和 度 为 1-a， 其 参数 的 区 间 估 计 如 下 : 


[B - sd B ) ta(n-2), В +sd( B )ta(n-2)] 


按照 上 述 公式 ， 


> summary (mylm.lm) 


24 取出 参数 预测 部 分 


> mylm.summary$coef 








计算 上 述 回 归 模 型 


























Ficients->mycof 





J 参 


= 


数 在 95% 置 


->mylm. summary 









































信 度 (显著 水 平 a=0.05) 的 预计 区 间 ，R 代 码 如 下 : 




















> mycof 
Estimate Std. Error t value Pr (>|t|) 
(Intercept) 1.284040 1.6609290 0.7730852 0.4826172233 
x 2.034265 0.1331944 15.2729058 0.0001071897 
# 显 著 水 平 a 
> a«-0.05 
># mylm.lm$df.residual 为 模型 的 自由 度 ， 其 值 为 nh-2，n 为 X 向 量 或 y 向 量 包 括 元 素 的 个 数 . 
> mylm.lm$df.residual-»mydf 
> lower bound«-mycof[,1]-mycof[,2]*qt (1-a/2,mydf) 
> upper bound<-mycof[,1]+mycof[,2]*qt (1-a/2,myd£) 
> dimnames (mycof) [[1]]-»myrowname 
> c(" 预 计 值 ", TAA", " E") ->mycolname 
>F 显示 参数 预测 区 间 
> matrix(c(mycof[,1],lower bound, upper bound),ncol-3,dimnames-list (myrowname,my 
colname)) 
预计 值 TAMEO 上 界 值 
(Intercept) 1.284040 -3.327439 5.895518 
x 2.034265 1.664458 2.404072 
> 
分 析 以 上 结果 ，x 的 系数 参数 预计 在 [1.664458，2.404072] 的 范围 内 。 
7.2.2 ”回归 诊断 
过 对 回归 进行 显著 性 检验 ， 可 检测 回归 效果 ， 尤 其 是 在 多 元 线性 回归 分 析 中 ， 无 法 用 散 点 图 直观 地 判断 众多 变量 x1，Xx2，.… 


检验 可 分 为 回归 方程 的 显著 性 检验 和 回归 系数 的 显著 性 检验 。 


I Xi-1 I Xj+1 I 


分 指出 Bo 预测 为 1.2840， 其 标准 差 (Std.Error) 731.6609; x 的 参数 (B1 部 分 ) 预测 为 


以 上 结果 ， 在 置信 度 为 95% 的 情况 下 ， 如 果 x=20， 则 y 值 预测 为 41.96934，y 值 预测 落 在 区 间 [35.63207，48.30661]， 如 果 x=19， 则 y 值 预测 落 在 区 间 [33.78026，46.08989]。 


…， Xp 与 y 之 间 是 否 存 在 线性 关系 的 时 候 。 回 归 效 果 的 显著 性 


以 Im 函数 结果 为 参数 ， 调 用 Summary 函 数 ， 将 返回 很 多 回归 检验 分 析 信 息 。 我 们 以 2 元 线性 回归 y=Bo+B1x1+B2x21+E 为 例 。R 代 码 如 下 : 







































































> xX1«-0(9,223,83,21,193) 
> x2«-c(98,52,185,263, 76) 
ч 415,479,630,438) ->y 
m(y~x1+x2)->mylm. 1m 
E га 
Ca] 
lm(formula = y ~ х1 + x2) 
Residuals: 
1 2 3 4 5 
2.462 2.037 -39.732 23.131 12.102 
Coefficients: 
Estimate Std. Error t value Pr(»|t|) 
(Intercept) 10.9635 57.2566 0.191 0.8658 
x1 1.2985 0.2341 5.547 0.0310 * 
x2 2.1621 0.2622 8.246 0.0144 * 
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 Te От T ' 1 
Residual standard error: 33.69 on 2 degrees of freedom 
Multiple R-squared: 0.9714, Adjusted R-squared: 0.9429 
F-statistic: 34 оп 2 and 2 DF, p-value: 0.02857 
f&iXditrsummarytRZIRSZ5Sg , 394-021-028: 
1) 分 析 Coefficients 部 分 。Bo 的 预测 值 为 10.9635，B1 的 预测 值 为 1.2985， 标 准 差 为 0.2341，B2 的 预测 值 为 2.1621， 
量 的 显著 水 平 ， 将 该 值 与 显著 性 水 平 比较 ， 可 决定 该 自 变 量 是 否 接受 回归 系数 的 假设 检验 ， 该 值 越 小 越 显著 ， 回 归 效 果 越 好 ，B1 和 B2z 的 Pr(> 


如 果 Pr(>|t) 值 >0.05， 表 明 该 


标准 差 为 0.2622; B1 的 t 值 为 5.547，B2 的 t 值 为 8.246。Pr(>|t) 值 即 P 值 ， 为 T 统 计 


|t) 值 均 小 于 显著 性 水 平 0.05， 但 线性 不 显著 ,后面 的 一 个 星 号 也 


变量 的 回归 系数 不 显著 ， 这 种 情况 下 有 必要 考虑 回归 方程 是 否 正 确 ， 或 者 剔除 一 些 不 显著 的 变量 ， 重 新 建立 更 简单 更 精确 的 线性 回归 方程 。 


2) 分 析 Residual standard error 部 分 ， 该 数值 若 较 小 则 比较 适合 ， 本 例 中 残 差 的 标准 差 为 33.69， 数 值 较 大 效果 不 理想 。 
3) 分 析 Multiple R-squared 部 分 ， 该 部 分 为 相关 系数 的 平方 ， 该 数值 越 大 ， 说 明 回 归 效 果 越 理 想 。 本 例 中 相关 系数 的 平方 值 为 0.9714。 
4) 分 析 F-statistic 部 分 的 p-value 值 ， 该 值 为 F 统 计量 的 显著 水 平 ， 可 用 该 值 进行 回归 方程 显著 性 检测 ， 数 值 越 小 越 好 ， 越 小 则 说 明 回归 方程 越 显著 。 本 例 中 的 p 值 为 0.02857， 回 归 效果 一 般 。 


此 外 ，R 还 提供 了 influence.measures 进 行 回 归 诊断 。 下 面 建立 了 一 个 效果 显著 的 回归 模型 : 


> x1«-c(9,223,83,21,193) 

> x2«-c(98,52,185,263, 16) 
> y<-x1+3*x2+runif (5,2,18) 
> lm(y~x1+x2)->mylm.1m 

> summary (mylm.lm) 
Call: 
































lm(formula = y ~ хі + x2) 
Residuals: 
1 2 3 4 5 

0.03635 2.17997 1.16226 -0.40196 -2.97661 
Coefficients: 
Estimate Std. Error t value Pr(»|t|) 
Intercept) 3.06344 4.67353 0.655 0.579476 
х1 1.03200 0.01911 54.010 0.000343 *** 
x2 3.02659 0.02140 141.412 5e-05 *** 


























B 














Signif. codes: 0 '***'. 0.001 '**' 0.01 '*' Q.05 n aA Q.1 * кт 
Residual standard error: 2.75 on 2 degrees of freedom 
Multiple R-squared: 0.9999, Adjusted R-squared: 0.9998 
F-statistic: 1.163е+04 on 2 and 2 DF, p-value: 8.595e-05 


























观察 以 上 结果 ，Pr(>|tj) 值 和 p 值 远 小 于 0.05， 说 明 回 归 方 程 和 回归 系数 都 非常 显著 ， 回 归 效 果 非 常 好 。 


7.2.3 回归 优化 


通常 可 通过 逐步 回归 来 优化 回归 方程 ， 从 可 供 选 择 的 所 有 自 变 量 中 选 出 对 Y 有 显著 影响 的 变量 建立 方程 ， 忽 略 对 Y 无 显著 影响 的 变量 。 使 用 R 的 step 阔 数 可 以 完成 逐步 回归 ， 该 函数 以 AIC 信 息 统 计量 为 准 
则 ， 选 择 最 小 的 AIC 信 息 统计 量 来 删除 自 变量 。 


下 面 举例 说 明 : 


> x1«-c(9,223,83,21,193) 

> xX2«-c(98,52,185,263,776) 
2X3«-c(25,35,48,58,42) 

> y«-c(841,1570,27774, 3923, 2137) 
> lm(y~x1+x2+x3)->mylm. 1m 

> summary (mylm.lm) 






































Call: 
lm(formula = y ~ хі + x2 + x3) 
Residuals: 
1 2 3 4 5 
8.075 39.072 -103.947 64.654 -7.854 











Coefficients: 





Estimate Std. Error t value Pr(»|t|) 









































(Intercept) -1.395е+03 2.824е+02 -4.938 0.127 

x1 4.873e-02 3.330е+00 0.015 0.991 

x2 2.38бе+00о 6.309е+00 0.378 0.770 

x3 7.973e*01 3.262е+01 2.444 0.247 
Residual standard error: 129 on 1 degrees of freedom 
Multiple R-squared: 0.997, Adjusted R-squared: 0.988 





F-statistic: 110.5 on 3 and 1 DF, p-value: 0.06978 
观察 以 上 结果 ， 从 summary 的 分 析 结 果 可 以 看 出 ， 效 果 很 不 理想 ，x1、x2、x3 的 系数 P 值 全 部 大 于 0.05， 回 归 系数 不 显著 ， 回 归 方 程 F 分 布 的 p 值 更 不 显著 。 
ТТА ерва ží. МКТ: 


> step (mylm. 1m) ->mylm. step 
Start: AIC=48.55 



































Df Sum of Sq RSS AIC 
=] 4 6642 46.551 
- x2 2380 9018 47.219 
«none» 16638 48.550 
- x3 1 99409 116048 56.262 
Step: AIC=46.55 
у ~ х2 + x3 

Df Sum of Sq RSS AIC 
«none» 16642 46.551 
= x2 1 55362 72004 51.875 
= R3 1 1388382 1405024 66.731 











从 以 上 step 结 果 可 以 看 出 ， 选 择 去 掉 x1， 可 以 使 AIC 的 值 为 最 小 值 46.551， 因 此 在 最 终 的 回归 方程 中 删除 x1。 


> summary (mylm.step) 
Call: 

lm(formula = y ~ х2 + x3) 
Residuals: 








J 2 3 4 5 
7.660 40.327 -103.459 64.579 -9.108 
Coefficients: 











Estimate Std. Error t value Pr(»|t|) 

(Intercept) -1396.4131 180.3749 -7.742 0.01628 * 

x2 2.2954 0.8899 2.579 0.12314 

x3 80.1922 6.2082 12.917 0.00594 ** 

STgnif. codes: .Q '***' 0.001. '***-0.Q01 '*'.0.05 w. Ол * * 1 
Residual standard error: 91.22 on 2 degrees of freedom 
Multiple R-squared: 0.997, Adjusted R-squared: 0.994 
F-statistic: 331.5 оп 2 and 2 DF, p-value: 0.003007 















































观察 以 上 结果 ， 从 summary 函 数 对 优化 后 的 回归 方程 的 分 析 结 果 可 以 看 出 ， 相 对 没 优 化 前 ，Residual standard error 值 减少 为 91.22，x2、x3 系 数 的 P 值 减少 为 0.12314、0.00594，x3 的 系数 通过 检 
测 ，x1 因 为 不 显著 最 终 没 有 加 入 回归 方程 中 ，F 分 布 的 p-value 值 也 减少 为 0.003007， 总 体 来 说 优化 后 回归 方程 和 回归 系数 更 加 显著 ， 回 归 效 果 更 好 . 
724 主 成 分 回归 


主 成 分 分 析 将 多 个 指标 中 少数 几 个 综合 指标 ， 通 过 降 维 技术 ， 将 多 个 变量 简化 成 少数 几 个 主 成 分 的 方法 ， 这 些 主 成 分 能 反映 原始 变量 的 绝 大 部 分 信息 ， 表 示 为 原始 变量 的 线性 组 合 。 以 网 上 商场 的 购物 
满意 度 为 例 进行 回归 ， 表 7-9 是 某 网 上 商场 的 购物 满意 度 指 标 。 


表 7-9 菜 网 上 商场 的 购物 满意 度 指标 


网 友 评 论 次 数 (X1) 好 评 


600 


T 


400 


1. 主 成 分 分 析 


首先 ， 使 用 R 语 言 的 princomp 函 数 进行 主 成 分 分 析 : 


次 数 (X2) 


中 浏览 人 数 (ХЗ) 


商品 已 上 市 天 数 (X4) 


H 


购物 满意 度 (1-5) 








buy«-data.frame( 
X1«-c(200,600,60,400,150), 

X2«-c (120,480,20,320,80), 
X3«-c(800,3000,300,2200,450), 

X4«-c (210,320,50,260,130), 
Y«-c(4,5,2,4,3) 

) 
princomp (~X1+X2+X3+X4, сог=ТКОЕ) ->mypr 
summary (mypr,loadings-TRUE) 
Importance of components: 

















уу++++++у 











Comp . 工 Comp. 2 


Comp. 3 


Comp.4 


Standard deviation 1.9711809 0.32537035 0.092379136 6.793839e-03 














Proportion of Variance 0.9713885 0.02646647 0.002133476 
Cumulative Proportion 0.9713885 0.99785498 0.999988461 








Loadings: 

Сотр.1 Comp.2 Comp.3 Comp.4 
ХІ -0.506 -0.164 0.644 0.550 
X2 -0.505 -0.289 0.203 -0.788 
X3 -0.502 -0.381 -0.726 0.274 
X4 -0.487 0.863 -0.130 





1.153906e-05 








1.000000е+00 





观察 以 上 结果 ，summary 浮 数 输出 了 主 成 分 分 析 信 息 ， 该 信息 主要 包括 以 下 内 容 : 


: Standard deviation 行 表示 的 是 主 成 分 的 标准 差 ( 主 成 分 的 方差 的 开 方 ) 。 


: Proportion of Vatiance 行 表示 的 是 方差 的 贡献 率 。 


: Cumulative Propottion 行 表示 的 是 方差 的 累积 贡献 率 。 


: Loadings 栏 表示 降 维 后 主 成 分 对 应 于 原始 变量 X1、X2、X3、X4 的 系数 。 在 调用 summaty 函 数 时 ， 可 以 将 参数 loadings 设 为 TRUE 下 ， 才 能 输出 loadings 信 息 。 


2. 降 维 


该 网 上 商场 的 满意 度 指 标 有 网 友 评论 次 数 (X1) 、 好 评 次 数 (X2) 、 商 品 浏览 人 数 (X3) 和 商品 已 上 市 天 数 (X4) 共 4 个 ， 其 中 第 1 个 主 成 分 Comp.1 的 贡献 率 为 0.9713885， 第 2 个 主 成 分 Comp.2 的 贡 
献 率 为 0.02646647， 这 两 个 主 成 分 的 累积 贡献 率 已 经 达到 99.79%， 并 且 后 面 两 个 主 成 分 的 方差 贡献 率 很 小 ， 因 此 ， 可 将 后 面 两 个 主 成 分 去 掉 ， 实 现 降 维 。 


шур 


Cn 


lances 


Var 





О ———— 
O 





Сотр.1 Сотр.2 Comp.3 Comp.4 


图 7-1 网 上 商场 满意 度 指标 碎 石 图 


此 外 ， 还 可 做 出 碎 石 图 (如 图 7-1 所 示 ) ， 可 直观 地 看 出 X1 和 X2 的 贡献 率 较 大 。R 代 码 如 下 : 








screeplot (mypr, type-"lines") 





再 观察 对 满意 度 指 标 分 析 结果 中 的 loadings 栏 ， 可 以 将 前 两 个 主 成 分 写成 以 下 形式 : 
* * * * * 
Z17-0.506X,-0.505X,-0.502X,-0.487 X. 
* * * * Ж 
Z7--0.164X;-0.289X;-0.381X;-0.863 X4 


3. 回 归 模型 建立 
接着 ， 可 以 建立 这 几 个 指标 与 满意 度 的 回归 模型 ， 根 据 前 面 的 主 成 分 分 析 结 果 ， 只 选择 前 两 个 贡献 率 高 的 主 成 分 X1 与 X2， 建 立 回归 模型 ， 消 除 变量 的 多 重 共 线性 。 


> pre«-predict (mypr) 

> pre[,1]-»buyS$Z14 € — + №4 

> pre[,2]-»buyS224 € — + № 

> lm(Y-21422,data-buy) ->mylm# 建 立 回 归 模 型 
> summary (mylm) 

Call: 




















lm(formula = Y ~ 71 + Z2, data = buy) 
Residuals: 





1 5 

0.06267 0.15488 0.01870 -0.25828 0.02203 
Coefficients: 
Estimate Std. Error t value Pr(»|t|) 
(Intercept) 3.60000 0.09770 36.847 0.000736 *** 


























Z1 -0.47551 0.04956 -9.594 0.010691 * 
22 1.159957 0.30028 3.862 0.060988 . 
signif. codes: Ü т 0.001 tw*t Ou0L кк Q.05 "T Ол * ™1 














Residual standard error: 0.2185 on 2 degrees of freedom 
Multiple R-squared: 0.9816, Adjusted R-squared: 0.9633 
F-statistic: 53.48 оп 2 and 2 DF, p-value: 0.01836 




















分 析 上 述 summary 函 数 的 执行 结果 ， 可 得 到 如 下 回归 方程 : 


Y-3.6-0475 51x Zi+1.159 57 x Z} 
4. 主 成 分 变量 变换 


最 后 ， 可 将 主 成 分 变量 进行 变换 : 








> coef (mylm) ->beta# 回 归 系 数 

> loadings (тург) ->myloading# 载 荷 

> mypr$center-»mybart254ü 

> mypr$scale->mysd# 标 准 差 

> (beta[2]*myloading[,1]+beta[3]*myloading[,2])/mysd->mycoef 
> beta[1]-sum (mybar*mycoef) -»beta0 

> c(beta0,mycoef) 
(Intercept) X1 X2 x3 X4 
1.3870124896 0.0002572658 -0.0005545049 -0.0001905035 0.0129419446 




















该 网 上 商场 的 购物 满意 度 的 最 终 回 归 模 型 如 下 : 


Y=1.3870124896+0.0002572658 x X,-0.0005545049 X X5-0.0001905035 X Х++0.0129419446 X X4 
7.2.5 广义 线性 异型 
1. 广 义 线性 模型 概述 


广义 线性 模型 (Generalized Linear Model, GLM) 是 一 种 被 广泛 应 用 的 线性 回归 模式 ， 它 是 线性 模型 的 扩展 ， 其 特点 是 不 强行 改变 数据 的 自然 度量 ， 因 为 变量 的 总 体 均 值 可 通过 非 线性 或 线性 连接 函 
数 依赖 于 线性 预测 值 ， 建 立 起 可 解释 随机 变量 相关 性 的 函数 。 


GLM 是 简单 最 小 二 乘 回归 的 扩展 ， 主 要 是 通过 连接 函数 ， 建 立 响应 变量 的 数学 期 望 值 与 自 变量 线性 组 合 的 预测 变量 之 间 的 关系 。 假 设 每 个 样本 的 观测 值 Y 来 自 某 个 指数 族 分 布 ， 该 分 布 的 平均 数 H 可 由 与 
该 点 独立 的 X 来 解释 : 


E(y)-u-g (X) 


上 式 中 ，E(y) 为 y 的 期 望 值 ，XB 是 由 未 知 待 估计 参数 8 与 已 知 自 变量 X 构 成 的 线性 估计 式 ，g 为 连接 函数 ，g-1 则 为 连接 函数 反 函 数 。 表 7-10 是 经 典 的 连接 函数 及 其 反 函 数 (也 可 称 为 均值 函数 ) 。 


表 7-10 ”经 典 的 连接 函数 及 其 反 郧 数 


正 态 恒 等 NES 





Gamma EU SS 

逆 高 斯 p -(X p)" 

泊 松 Пий | хвещы) — i —exp(X B) 
Logit = 

多 项 式 1+ехр(Х В) 


简 而 言 之 ，GLM 不 但 适用 于 连续 数据 ， 还 适用 于 诸如 属性 数据 、 计 数 数据 等 离散 数据 ， 它 通过 连接 函数 将 因 变 量 的 期 望 值 与 线性 自 变 量 联系 ， 自 变量 的 线性 预测 值 是 因 变 量 的 估计 值 ， 并 对 误差 的 分 布 
给 出 误差 函数 ， 在 GLM 模 型 中 ， 需 要 指定 分 布 类 型 和 连接 函数 。 


在 R 中 通常 使 用 GLM 函 数 构造 广义 线性 模型 ， 其 中 分 布 参数 包括 binomaial (二 项 分 布 ) 、gaussian ( 正 态 分 布 ) 、gamma (WBS) . poisson ( 泊 松 分 布 ) 等 。 
2. 广 义 线 性 模型 实例 


下 面 以 二 项 分 布 (binomaial) 的 logistic 回 归 模 型 为 例 进行 讲解 。 假 设 某 网 上 商场 试图 建立 某 类 商品 的 购买 率 (购买 量 /商品 页 面 浏览 次 数 ) 与 气候 之 间 的 关系 模型 ， 这 样 就 可 根据 当地 气候 的 预测 情 
况 ， 推 断 该 类 商品 的 购买 率 ， 从 而 向 消费 者 推荐 该 类 商品 。 样 本 数据 如 表 7-11 所 示 。 


表 7-11 雨量 与 购买 率 


温度 雨量 (小 为 0、 中 为 1、 大 为 2 ) 购买 : 


#5 


OO TE TE EE 


温度 雨量 (小 为 0、 中 为 1、 大 为 2 ) 


U 
p 


首先 ， 建 立 广义 线性 模型 。R 代 码 如 下 所 示 : 








> mysale«-data.frame( 
temperature«-c (22,38,12,33,0,9,29,17,33,31,35,19,13,8), 
rainfall«-c(0,0,0,0,0,1,1,1,1,2,2,2,2,2), 
n«-rep (100,14), 
buy«-c (15,27,11,20,9,18,32,22,35,69, 78, 39, 29,25) 
) 
> mysale$y«-cbind (mysaleS$buy,mysale$n-mysaleS$buy) 
> gim(y-temperature-rainfall,family-binomial,data-mysale)-»myglm 
> summary (myglm) 
Call: 
glm (formula = y ~ temperature + rainfall, family = binomial, 

data = mysale) 
Deviance Residuals: 

Min 10 Median 3Q Max 

1.5231 -0.8861 -0.1604 1.1531 2.3457 
Coefficients : 
Estimate Std. Error z value Pr(»|zl) 
(Intercept) -3.23592 0.20961 -15.438 <2е-16 
temperature 0.06136 0.00633 9.694 <2е-16 *** 
rainfall 0.90678 0.08067 11.240 «2e-16 
Signif. codes: 0 '***' 0.001 '*** 0,01 '*' 0.05 *.' Ол * ' 1 
(Dispersion parameter for binomial family taken to be 1) 

Null deviance: 243.940 on 13 degrees of freedom 
Residual deviance: 19.553 on 11 degrees of freedom 
AIC: 90.86 
Number of Fisher Scoring iterations: 4 





















































































































































观察 以 上 分 析 结 果 可 以 发 现 ， 回 归 参 数 为 Bo=-3.23592、B1=0.06136、B2=-0.90678， 系 数 参数 通过 了 显著 性 水 平 a=0.05 的 检验 ， 回 归 模 型 如 下 : 


exp(-3.235 92+0.061 36 x temperature--0.906 78 x rainfall) 


] -exp(-3.235 92+0.061 36 x temperature--0.906 78 x rainfall) 


其 中 temperature 是 温度 ，rainfall 是 雨量 。 


接着 ， 可 根据 该 回归 模型 进行 预测 。 比 如 温度 为 30"C， 大 十 时 ， 该 类 商品 的 购买 率 为 多 少 ? 











> predict (myglm,data.frame (temperature-30,rainfall-2))-»mypre 
> mypre 
1 
0.41857 
> exp (mypre) / (1+ехр (турге) ) ->mybuy 
> mybuy 








0.603141 








观察 以 上 结果 ， 最 后 一 行 表明 ， 大 雨 且 温 度 为 30"C 时 ， 购 买 率 估计 为 60.3%。 
再 来 看 一 个 例子 ， 表 7-12 是 网 上 商场 某 类 商品 的 若干 名 回头 客 的 数据 。 


7-12 某 类 商品 的 若干 名 回头 客 的 数据 


商品 打折 

0.82 
0.92 
0.68 
0.7 

0.62 
0.52 
0.42 
0.85 
0.95 
0.65 
0.75 
0.7 

0.5 

0.38 
0.85 
0.95 
0.65 
0.75 
0.6 





0 


0 
0 
0 


购买 与 否 ( 0 表示 不 购买 ，1 表示 购买 ) 


商品 打折 赠品 数量 ( 0-2 ) 购买 与 否 ( 0 表示 不 购买 ，1 表示 购买 ) 


对 表 7-12 的 数据 运用 GLM 进 行 分 析 ， 得 到 购买 率 (Y) 和 商品 打折 (ХТ) 、 赠 品 数量 (X2) 的 回归 模型 。 


首先 ， 建 立 广义 线性 模型 ，R 代 码 如 下 : 





mysale«-data.frame( 
X172c(0.82,0.92,0.68,0.7,0.62,0.52,0.42,0.85,0.95,0.65,0.75,0.7,0.5,0.38,0.85, 
0.95,0.65,0.75,0.6,0.48,0.98,0.3), 

X2—rep (с(0,1,2),с(7,7,8)), 

Y-c(0,0,0,0,1,1,1,0,0,1,0,1,1,1,1,1,1,1,1,1,0,1)) 

» 
> gim(Y-X1*X2,family-binomial,data-mysale)-»myglm 
» summary (myglm) 

Call: 
glm(formula = Y ~ X1 + X2, family = binomial, data = mysale) 
Deviance Residuals: 

Min 10 Меаіап 3Q Max 

-1.72890 -0.04535 0.00108 0.08745 1.28906 
Coefficients: 
Estimate Std. Error z value Pr(>|z|) 













































































(Intercept) 24.388 14.086 1.731 0.0834 . 
ХІ -39.360 22.348 -1.761 0.0782 . 
X2 6.373 3v 451 1.699 0.0893 . 
Signüt. codes: Ü "7 0.001 тт 0.01 к= Q.05 t." QT ' * 1 














(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 28.841 on 21 degrees of freedom 

Residual deviance: 7.054 on 19 degrees of freedom 

AIC: 13.054 

Number of Fisher Scoring iterations: 8 

> 
































观察 以 上 分 析 结果 可 以 看 出 ， 回 归 参 数 为 Po=24.388、B1=-39.360，B2=6.373， 系 数 参数 通过 了 显著 性 水 平 a=0.1 的 检验 ， 回 归 模 型 如 下 : 


exp(24.388—39.360 x Х,+6.373 x X2) 
| 
6 


其 中 X1 是 商品 打折 ，X2 是 赠品 数量 。 


然后 ， 根 据 该 回归 模型 进行 预测 ， 分 别 从 以 下 几 种 情况 进行 预测 。 


| -exp(24.388—39.360 x Х,+6.373 x X2) 


] 
0 


1) 在 商品 打折 73%、 赠 品 数量 是 1 的 情况 下 ， 该 类 商品 的 购买 率 为 88.37%。R 代 码 如 下 : 





> predict (myglm, data.frame (X1-20.73,X2-1) ) -^mypre 
> exp (mypre) / (1+ехр (турге) ) ->mybuy 
> mybuy 


1 
0.8836742 
> 


2) 在 商品 打 85 折 、 赠 品 数量 是 1 的 情况 下 ， 该 类 商品 很 可 能 不 会 被 回头 客 购买 。R 代 码 如 下 : 





> predict (mygim,data.frame (X1=0.85,X2=1) ) ->mypre 
> exp (mypre) / (1+ехр (турге) ) ->mybuy 
> mybuy 


1. 
0.06323925 


3) 在 商品 打 85 折 、 赠 品 数量 是 2 的 情况 下 ， 该 类 商品 非常 有 可 能 被 回头 客 购买 。R 代 码 如 下 : 





> predict (myglm data.frame (Х1=0.85, Х2=2)) ->mypre 
> exp (mypre) / (1+ехр (турге) ) ->mybuy 
> mybuy 


工 
0.9753328 
> 


7.3 т 


本 章 首先 讲述 了 假设 检验 ， 通 过 设立 零 假设 ( 想 检 验 其 正确 性 ) 与 对 立 假设 (通常 反映 研究 者 对 未 知 参数 的 看 法 ， 相 对 于 零 假设 的 其 他 论述 ) ， 研 究 某 事件 发 生 的 可 能 性 ， 如 果 可 能 发 生 的 话 ， 分 析 其 
预测 区 间 值 ， 具 体 介绍 了 二 项 分 布 假设 检验 、 数 据 分 布 检验 、 正 态 总 体 均值 检验 、 列 联 表 、 符 号 检测 、 秩 相关 检验 、Kendall 相 关 检 验 等 。 然 后 ， 讲 解 了 回归 模型 的 若干 问题 ， 回 归 通 过 规定 因 变量 和 自 变 量 
的 关系 来 确定 变量 之 间 的 因果 关系 ， 具 体 介 绍 了 回归 预测 、 回 归 显 著 性 检验 、 回 归 诊 断 与 优化 、 主 成 分 回归 与 广义 线性 回归 等 。 


cH 
dk 
Ёш 


(1) 对 某 服务 器 进行 稳定 性 检测 ， 记 录 8 次 无 故障 稳定 工作 的 小 时 数 ， 分 别 为 : 210、190、320、230、160、67、400、340， 经 估计 它 符合 N=1/280 的 指数 分 布 ， 验 证 一 下 稳定 性 的 分 布 。 
(2) 网 上 商场 某 类 些 商 品 经 常 发 生 投 诉 问题 ， 以 往 发 生 投诉 的 概率 为 35%， 对 这 类 商品 的 供应 商 进 行规 范 和 约束 调整 后 ， 随 机 抽取 了 400 多 个 客户 ， 其 中 有 40 个 投诉 ， 策 略 调整 是 否 有 效果 ? 
(3) 对 下 面 的 X 和 Y 进 行 Kendall 相 关 检 验 ， 检 测 其 相关 性 。 


> Х<-с(150,210,90,190,230,211) 
> Y«-c(40, 20,30,18,28,22) 





(4) 对 因 变 量 y 和 自 变量 x1、x2、x3 建 立 线性 回归 模型 ， 并 进行 优化 。 


> xl«-c(9,223,83,21,193) 

> x2«-c(108,52,180,259,82) 
> x3«-c(8,5,10, 9, 2) 

>c (237,415, 479, 630, 438) ->y 
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自古 圣贤 之 言 学 也 ， 咸 以 躬 行 实践 为 先 ， 识 见 言 论 次 之 。 


一 一 林 希 元 


第 8 章 ”机 器 学 习 算法 


学 习 就 是 在 不 断 重 复 的 工作 中 使 自己 的 能 力 不 断 增强 或 改进 ， 在 下 一 次 执行 相同 或 类 似 的 任务 时 ， 会 比 原来 做 得 更 好 或 效率 更 高 。 机 器 学 习 研 究 指 的 是 用 计算 机 来 模拟 或 实现 人 类 学 习 活动 ， 研 究 如 何 
使 机 器 通过 识别 和 利用 现 有 的 知识 来 获取 新 知识 和 新 技能 。 机 器 学 习 的 内 部 表现 为 从 未 知 到 已 知 这 样 一 个 知识 增长 过 程 ， 其 外 部 表现 为 某 些 性 能 和 适应 性 得 到 系统 的 改善 。 机 器 学 习 形成 了 一 套 算法 理论 ， 
这 些 算 法 使 系统 能 完成 原来 不 能 完成 的 任务 ， 或 者 能 更 好 地 完成 原来 可 以 完成 的 任务 。 


8.1 神经 网 络 


1. 神 经 网 络 基 本 原理 


人 脑 由 上 干 亿 条 神经 组 成 ， 每 条 神经 平均 又 会 连接 到 几 干 条 其 他 的 神经 ， 通 过 这 种 连接 方式 ， 神 经 可 以 收发 不 同 数 量 的 能 量 。 神 经 一 个 非常 重要 的 功能 就 是 ， 它 们 对 能 量 的 接收 并 不 是 立即 作出 响应 ， 
而 是 将 它们 累加 起 来 ， 当 这 个 囚 加 的 总 和 达到 某 个 临界 阅 值 时 ， 它 们 才 将 自己 的 那 部 分 能 量 发 送 给 其 他 的 神经 。 大 脑 通 过 调节 这 些 连接 的 数目 和 强度 来 进行 学 习 。 


如 图 8-1 所 示 是 一 个 神经 元 的 模型 ， 神 经 网 络 复杂 多 样 ， 由 大 量 与 该 图 类 似 的 神经 元 及 突 触 组 成 。 神 经 科学 界 的 共识 是 ， 人 类 大 脑 包 含 1000 亿 个 神经 元 ， 每 个 神经 元 有 1 万 个 突 触 ， 数 量 巨 大 ， 组 合 方式 


复杂 ， 联 系 广泛 。 也 就 是 说 ， 突 触 传递 的 机 制 复杂 。 


现在 已 经 发 现 和 阐明 的 突 触 传 递 机 制 有 : 突 触 后 兴奋 、 突 触 后 抑制 、 突 触 前 抑制 、 突 触 前 兴奋 ， 以 及 远程 抑制 等 。 在 突 触 传递 机 制 中 ， 释 放 神 经 实现 突 触 传递 机 能 的 中 心 环节 ， 而 不 同 的 神经 递 
质 有 着 不 同 的 作用 性 质 和 特点 。 





图 8-1 大 脑 神经 元 


人 工 神经 网 络 (ANN) 是 一 种 模仿 生物 神经 网 络 结构 和 功能 的 数学 模型 ， 它 使 用 大 量 的 人 工 神经 元 连接 来 进行 计算 ， 该 网 络 由 大 量 的 “神经 元 ”相互 连接 构成 ， 每 个 “神经 元 ”代表 一 种 特定 的 输出 函 
数 。 又 称 为 激励 函数 。 每 两 个 “神经 元 ” 间 的 连接 代表 一 个 通过 该 连接 信号 的 加 权 值 ， 称 之 为 权重 ， 这 相当 于 人 工 神经 网 络 的 记忆 。 网 络 的 输出 则 根据 网 络 的 连接 规则 来 确定 ， 输 出 因 权重 值 和 激励 函数 的 
不 同 而 不 同 。 人 工 神经 网 络 可 理解 为 对 自然 界 某 种 算法 或 者 函数 的 逼近 。 


如 图 8-2 所 示 是 一 个 简单 的 人 工 神经 元 示意 图 。 其 中 ，x1(b) 等 数据 为 这 个 神经 元 的 输入 ， 代 表 其 他 神经 元 或 外 界 对 该 神经 元 的 输入 ;wi1 等 数据 为 这 个 神经 元 的 权重 ，ui= 忆 wijxi( 是 对 输入 的 求 和 ， 为 诱 
导 局 部 域 ; yi=f(ui(tb)) 为 输出 函数 ， 也 称 激励 函数 ， 是 对 诱导 局 部 域 的 再 加 工 ， 也 是 最 终 的 输出 。 





图 8-2 人工 神 经 元 


2. 神 经 网 络 发 展 历史 


20 世 纪 40 年 代 ， 心 理学 家 Mcculloch 和 数学 家 Pitts 联 合 提 出 了 兴奋 与 抑制 型 神经 元 模型 ， 另 外 ，Hebb 提 出 了 神经 元 连接 强度 的 修改 规则 ;到 20 世 纪 五 六 十 年 代 ， 该 领域 具有 代表 性 的 工作 是 
Rosenblatt 的 感知 机 和 Widrow 的 自 适应 性 元 件 Adaline; 1969 年 ，Minsky 和 Papert 合 作出 版 了 颇 有 影响 力 的 著作 《感知 器 》， 书 中 上 暗示 感知 器 具有 严重 局 限 ， 得 出 了 消极 悲观 的 论点 ， 使 感知 器 与 连接 主 
义 遭 到 冷落 ， 而 感知 器 是 神经 网 络 的 一 种 重要 形式 。 在 20 世 纪 70 年 代 ， 人 工 神 经 网 络 的 研究 处 于 低潮 ，20 世 纪 70 年 代 未 ， 传 统 的 冯 - 诺 依 曼 (Von Neumann) 数字 计算 机 在 模拟 视听 党 的 人 工 智 能 方面 遇 
到 了 物理 上 不 可 逾越 的 极限 。 但 与 此 同时 ，Rumelhart、Mcclelland 和 Hopfield 等 人 在 神经 网 络 领域 取得 了 突破 性 进展 ， 神 经 网 络 的 热潮 再 次 掀起 。 


8.1.1 ВоѕепЫіа+ 22 


Rosenblatt 感 知 器 是 由 美国 计算 机 科学 家 罗 森 布 拉 特 (F.Rosenblatt) 于 1957 年 提出 的 。F.Rosenblatt 经 过 证 明 得 出 结论 ， 如 果 两 类 模式 是 线性 可 分 的 ( 指 存 在 一 个 超 平面 将 它们 分 开 ) ， 则 算法 一 定 
收敛 。Rosenblatt 感 知 器 特别 适用 于 简单 的 模式 分 类 问题 ， 也 可 用 于 基于 模式 分 类 的 学 习 控制 。 


Rosenblatt 感 知 器 建立 在 一 个 线性 神经 元 之 上 ， 神 经 元 模型 的 求 和 节点 计算 作用 于 突 触 输入 的 线性 组 合 ， 同 时 结合 外 部 作用 的 偏 置 ， 对 若干 个 突 触 的 输入 项 求 和 后 进行 调节 。 
1. 基 本 计算 过 程 

Rosenblatt 感 知 器 的 基本 计算 步骤 如 下 : 

1) 将 数据 作为 输入 送 入 神经 元 。 


2) 通过 权 值 和 输入 共同 计算 诱导 局 部 域 ， 诱 导 局 部 域 是 指 求 和 节点 计算 得 到 的 结果 ， 计 算 公 式 如 下 : 


mi 
у= Ў: мх, + b 


i=] 
3) 以 硬 限 幅 器 为 输出 函数 ， 诱 导 局 部 域 被 送 入 硬 限 幅 器 ， 形 成 最 终 的 输出 硬 限 幅 器 的 工作 原理 如 下 。 


硬 限 幅 器 输入 为 正 时 ， 神 经 元 输出 +1， 反 之 输出 -1。 计 算 公式 为 : 


l, v>0 
fo- 


硬 限 幅 器 函数 图 像 如 图 8-3 所 示 。 


f) 


十 | 


图 8-3 ZF Dš АКЕ ЙИ 


从 图 8-3 可 以 看 出 ， 在 最 终 的 计算 结果 中 ， 把 外 部 的 输入 x1，x2，.…，xm 输 出 为 两 类 ， 分 类 规则 是 : 如 果 输 出 函数 是 + 1， 则 为 类 1; 如 果 输 出 为 -1， 则 为 类 2。 感 知 器 被 超 平面 分 为 两 类 ， 这 个 超 平面 
为 : 


m 
у мх, + b= 0 
i=] 
2. 权 值 修 正 
在 上 述 计 算 过 程 中 ， 第 二 步 涉及 一 个 重要 的 参数 ， 即 权 值 。 如 何 确定 权 值 才能 保证 输出 能 被 正确 地 分 类 到 +1 和 -1 呢 ? 
首先 ， 会 产生 一 个 初始 权 值 ， 由 初始 权 值 计算 得 到 的 输出 结果 肯定 会 有 误差 。 接 着 ， 要 想 办 法 让 误差 减少 ， 这 个 过 程 就 是 权 值 w 修 正 的 过 程 。 


新 的 问题 产生 了 ， 哪 些 数据 用 来 输入 呢 ? 在 用 神经 网 络 进行 机 器 学 习 时 ， 输 入 数据 是 确定 的 ， 但 输出 结果 是 未 知 的， 这 些 输出 结果 正 是 我 们 需要 用 神经 网 络 预测 的 结果 。 解 决 这 个 问题 的 关键 在 于 样 
本 。 样 本 是 研究 中 实际 观测 或 调查 的 一 部 分 ， 研 究 对 象 的 全 部 称 为 总 体 ， 样 本 必须 能 够 正确 反映 总 体 情况 。 所 以 ， 首 先 要 用 样本 将 神经 网 络 训练 好 ， 在 确定 权 值 后 ， 再 用 训练 好 的 神经 网 络 对 未 知 输入 所 属 
的 输出 进行 预测 。 权 值 修正 方法 分 为 单 样本 修正 算法 和 批量 修正 算法 。 


单 样本 修正 算法 的 步骤 为 : 神经 网 络 每 次 读 入 一 个 样本 ， 进 行 修正 ， 样 本 读 取 完 毕 ， 修 正 过 程 结 束 。 算 法 过 程 描述 如 下 : 


1) 设置 如 下 参数 : 
и(0)=0 
х(п)=(+1, х1(и), +, x,(n))' 
w(ny-(b, wi(n),---, w,(n)) 


其 中 ，b 为 偏 置 ，x 为 输入 向 量 ，w 为 权 值 。 


2) 感知 器 激活 。 


对 于 每 个 时 间 步 n， 通 过 输入 向 量 x(m) 和 期 望 输出 d(n) 激 活 感知 器 。 


3) 计算 感知 器 的 输出 。 


y(n)=sen(w'(n)x(n)) 
+1, жей 


sgn- 
-], у<0 


其 中 ，n 为 时 间 步 ，x(n) 为 输入 向 量 ，w(n) 为 权 值 向 量 ，sgn 为 硬 限 幅 国 数 ，V 为 硬 限 幅 阔 数 的 输入 值 。 


4) 更 新 感知 器 的 权 值 向 量 。 


其 中 ，n 为 学 习 速 率 (调整 更 新 的 步伐 ) 。 


wnt+1)=w(n)+n(d(n)—y(n))x(n) 
0<n<1 

x(n) 属于 第 1 类 
-l, x(n) 属于 第 2 类 


d 


а(п)= 


v 


下 面 用 神经 网 络 学 习 逻 辑 或 的 运算 ， 用 Python 实现 上 述 算法 。 代 码 如 下 : 


f!/usr/bin/env python 

# -*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#8-1.ру 

import numpy as np 


b=0 


a=0. 


x = 


[ 
d =np.array ; 
w-np.array([b,0 


def 











for 





9 


np.array([ 
([1 


rl 
11) 








sgn (v): 
if у>0: 
return 1 





else: 





return 0 


f соту (myw,myx): 


[0,1,0], [0,0,0], [0,0, 1]]) 


return зап (np.dot (myw.T,myx)) 


f neww (oldw,myd,myx,a): 





return oldw-*a* (myd-comy (oldw,myx))*myx 


xn in x: 
w-neww (w,d[i],xn,a) 
i+=1 

xn in x: 


print "$d or $d => $d "$(xn[1],xn[2],comy (м, xn) ) 





如 下 程序 输出 结果 正确 。 








1 ог -»] 
ог 0 => 1 

0 ог 0 => 0 

0 OF 1 => 














现在 来 测试 一 个 更 复杂 的 例子 。 针 对 下 面 两 类 函数 训练 神经 网 络 ， 将 一 组 (х, у) 值 划分 为 以 下 两 类 遂 数 之 一 : 


Е 2x+1=y 为 第 1 类 。 


. 7x+1=y 为 第 2 类 。 


代码 如 下 : 


#!/usr/bin/env python 

# -*- coding: utf-8 -*- 
18-2.py 

import numpy as np 


b=1 
a-0 








„3 











х=пр.аггау([[1,1,3], [1.5.25 9:5 
d-np.array([1,1,-1,-1,1,-1]) 
w-np.array([b,0,0]) 
def sgn(v): 
if v>=0: 
return 1 
else: 
return -1 














return oldw-*a* (myd-comy (oldw,myx))*myx 





[1,1,8], [1,2,15], [1, 3, 7] , [1, 4, 29]]) 


print "$d %а => $d "$(xn[1],xn[2],comy (и, xn) ) 





def соту (тут, тух) : 
return зап (np.dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
print comy (oldw,myx) 
i-0 
for xn in x: 
print xn 
w-neww (w,d[i],xn,a) 
і+=1 
print м 
Ғог хп іп х: 
cest-np.array([b,9,19]) 








print "Sd Sd = ѕа "$(test[1 











c-np.array([b,9,64]) 


1, 


Ces 


c [2], соту (w, 




















1], 


print "$d %а => $d "$(test[1 





Ces 





c [2], соту (w, 





Les 


2E 








Les 





t) ) 





在 上 面 代码 中 , 使 用 了 [1，3] 、 


[2, 5] 、 [1, 8]. [2, 15]. [3, 71. [4, 29] 这 几 组 数据 对 该 神经 网 络 进行 训 | 练 。 


\ 一 /一 
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该 程序 ， 对 从 未 在 样本 中 出 现 过 的 数据 [9, 19] . 


[9, 64] 进 


了 分 类 。 通 过 前 面 的 函数 定义 可 以 知道 ， [9，19] 属于 第 1 类 ， [9, 64] 属于 第 2 类 。 如 下 所 示 : 





根据 上 述 参数 ， 可 以 确定 神经 网 络 的 分 类 线 方程 为 : 
1.2х-0.бу+1=0=>1.2х+1=0.бу=>ул=2х+1.68 


那么 对 于 不 完全 符合 上 述 两 个 函数 定义 的 数据 ， 通 过 训练 好 的 神经 网 络 也 能 近似 地 划分 到 上 述 函 数 中 。 试 着 将 前 面 的 代码 修改 一 下 ， 加 入 两 个 不 太 规 则 的 测试 数据 点 [9, 16] . [9, 60] ， 并 把 样本 
[b, 2, 5] 改 为 不 规则 的 [b, 2, 3] ， 同 时 加 入 绘图 命令 ， 同 时 加 入 绘图 命令 ,绘制 数据 点 ， 然 后 使 用 上 面 计算 的 分 类 线 方程 绘制 分 类 线 (这 样 能 直观 地 观察 结果 ) ， 如 图 8-4 所 示 。 
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图 8-4 和 神经 网 络 分 类 (ЖЩ) 


在 如 图 8-4 所 示 的 样本 数据 点 中 ， 大 的 圆 点 属于 第 2 类 ， 输 出 为 -1， 星 号 属于 第 1 类 ， 输 出 为 1; 在 测试 数据 点 中 ， 又 号 属于 第 2 类 ， 输 出 为 -1， 小 点 属于 第 1 类 ， 输 出 为 1。 中 间 的 虚线 就 是 分 类 线 ， 这 条 
分 类 线 把 坐标 系 内 的 点 分 成 为 两 类 ， 分 类 线 以 上 的 点 输出 为 -1， 以 下 的 点 输出 为 1， 训 练 好 的 神经 网 络 通过 这 条 分 类 线 决 定 如 何 对 输入 所 属 的 分 类 进行 预测 。 


修改 后 的 Python 代 码 如 下 : 


#!/usr/bin/env python 

# -*- coding: utf-8 -*- 
#8-3.ру 

import numpy as пр 
import pylab as pl 




















b=1 
a-0.3 
x-np.array([[1,1,3],[1,2,3], [1,1,8], [1,2,15], [1, 3, 7] , [1, 4, 29] ]) 
d-np.array([1,1,-1,-1,1,-1]) 
w-np.array([b,0,0]) 
def sgn(v): 
if v»20: 
return 1 
else: 
return -1 





def соту (myw,myx): 
return зап (np.dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
return oldw+a* (myd-comy (oldw,myx))*myx 








i-0 
for xn in x: 
w-neww (w,d[i],xn,a) 
i+=1 
myx=x[:,1] 
myy-x[:,2] 
pi.subplot (111) 
x max-np.max (тух) +15 











x min-np.min (myx)-5 
y max-np. max (myy) +50 
y ! min-np. Kms =5 
.хІаре1 (u"x") 
.xlim(x min, x max) 
у: аре] (u"y") 
.У іт (у 1 min, y max) 
for i in xrange (0, len (d) ) : 
if d[i]»0: 
| pl.plot(myx[i], myy[i], 'r*') 
else: 

















Dodd 


























.plot(myx[i], myy[i], 'ro') 





p 
# 绘 制 测试 点 
test-np.array([b,9,19]) 
if comy(w,test)»0: 
] ot(test[1],test[2], 'b.') 











ot(test[1],te 
































pl.plot(test[1],test[2], 'b.') 















































ot(test[1],test[2], 'bx') 





“了 LO 
12412 分 类 线 
testx-np.array (range (0, 20) ) 
testy-testx*241.08 
pl.plot (testx,testy, 'g--') 























给 出 的 是 单 样本 感知 器 算法 ， 算 法 仅 读 取 一 次 样本 ， 每 读 取 一 个 样本 ， 就 是 一 次 运 代 。 每 次 迭代 时 ， 只 考虑 了 用 一 个 训练 模式 修正 权 矢 量 。 实 际 上 ， 可 以 将 几 个 训练 模式 一 起 考虑 ， 而 批量 修正 算 
法 则 考虑 了 使 用 代价 函数 来 进行 分 类 误差 率 的 控制 。 批 量 修正 算法 要 对 样本 进行 多 次 读 取 ， 直 到 神经 网 络 的 误差 率 降 到 合适 的 程度 才 停止 样本 的 训练 ， 这 是 它 与 单 样本 修正 算法 本 质 的 区 别 。 算 法 中 的 误差 
率 使 用 最 直观 的 被 错 分 类 的 样本 数量 准则 。 


批量 修正 算法 的 核心 在 于 其 权 值 更 新 策略 。 批 量 修正 算法 采用 的 是 梯度 下 降 原 理 ， 其 计算 公式 为 : 
w(k--1)-w(Kk)-n(k) V J(w(k)) 
其 中 ，n(k) 称 为 学 习 率 ，VJ(w(k)) 为 梯度 ， 计 算 方法 为 : 


VJ(w(k) = > C») 


yer, 


其 中 ， 


Yk= 被 错 分 类 的 样本 输出 值 集 


最 终 得 出 权 值 更 新 策略 为 : 


w(k +1) = w(k)-n(k) > d*y ( 8-1) 


yer, 

在 上 式 中 ，d 为 样本 实际 输出 值 ，y 为 被 错 分 类 的 样本 的 输出 值 。 
具体 算法 过 程 如 下 : 
1) 初始 化 权 值 、 学 习 率 ， 以 及 期 望 误 差 率 。 
2) 读 取 所 有 样本 数据 。 
3) 依次 对 样本 进行 训练 ， 更 新 权 值 ， 其 更 新 策略 如 式 (8-1) 所 示 。 

(k) 
4) "m L^ - 旧 定 误差 率 ， 或 者 训练 次 数 是 否 已 到 ， 如 果 没 有 达到 误差 率 的 要 求 且 训练 次 数 未 到 ， 转 到 第 2 步 执 行 。 


继续 使 用 单 样本 修正 法 的 样本 ， 将 一 组 (x, y) 的 输入 划分 为 以 下 两 类 函数 之 一 : 
: 2x+1 =y% 第 1 类 
“7x+1=y 为 第 2 类 


下 面 用 Python 实 现 这 个 神经 网 络 ， 其 中 加 入 了 一 个 不 规则 的 样本 数据 [1, 2, 3] ， 最 后 用 [9, 19] 和 [3，22] 对 训练 成 功 后 的 网 络 进行 测试 。 


#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#8-4.py 
import numpy as np 
b=1 
a=0.5 
x = пр.аггау([[1 
d =np.array([1,] 
w=np.array([b, 0, 
wucha=0 
ddcount=50 
def sgn(v): 

if у>0: 








„3], [1,2,3], [1,1,8], [1, 2, 15]]) 
-j 











return 1 





else: 





return -1 
def соту (myw,myx): 
return sgn (np.dot (myw.T,myx)) 
def tiduxz (myw,myx, пуа) : 
i-0 
sum x-np.array([0,0,0]) 





i-0 





for xn in myx: 
if соту (myw, xn) !-d[i]: 
sum xf-d[i]*xn 





і+=1 
return mya*sum х 


while True: 


tdxz-tiduxz (w,x,a) 


























w-—w-tdxz 
і=1+1 
if abs(tdxz.sum())«-wucha or i»-ddcount:break 
c-np.array([1,9,19]) 
print "$d $d => $d "$(test[1],test[2],comy (w, test) ) 
c-np.array([1,3,22]) 
print "$d $d => $d "$(test[1],test[2],comy (м, test) ) 
































运行 程序 后 可 发 现 ， 训 练 效果 很 好 ， 测 试 数据 被 正确 分 类 。 


9 19 => 工 
3 22 => -1 


3.LM 9 算法 


LMS 算 法 全 称 为 least mean square 算 法 ， 中 文 是 最 小 均 方 算 法 。 在 ANN 领 域内 ， 均 方 误 差 是 指 样本 预测 输出 值 与 实际 输出 值 之 差 平 方 的 期 望 值 ， 记 为 MSE。 设 observed 为 样本 真 值 ，predicted 为 样 
本 预测 值 ， 计 算 公式 如 下 : 


MSE = В > (observed, — predicted, y 


n t ] 


LMS 算 法 的 策略 是 使 均 方 误 差 最 小 ， 该 算法 运行 在 一 个 线性 神经 元 上 ， 使 用 的 是 批量 修正 算法 ， 其 误差 信号 为 : 


e(ny-d(n)-X (ny (n) 


然后 在 误差 信号 的 基础 上 计算 梯度 向 量 ， 公 式 如 下 : 


Oe(71) 
Op (n) 


最 后 ， 生 成 权 值 调整 方案 。 公 式 如 下 : 


ÍP (n--1)-fp (n)-nX(n)e(n) 


在 上 式 中 ，n 表 示 学 习 率 ， 该 值 越 小 ，LM 算法 执行 得 越 精确 ， 但 同时 算法 收敛 速度 越 慢 。 


下 面 使 用 LMS 算 法 实现 逻辑 或 运算 ， 将 学 习 率 设 为 0.1。 代 码 如 下 : 


f!/usr/bin/env python 
























































f-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#8-5.ру 
import numpy as np 
b=1 
a=0.1 
х = np.array([[1,1,1], [1,1,0], [1,0,1], [1,0,0] ]) 
d -np.array([1,1,1,0]) 
w-np.array([b,0,0]) 
expect e-0.005 
maxtrycount-20 
def sgn(v): 
if у>0: 
return 1 
else: 
return 0 
def get у (myw,myx): 
return зап (np.dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
mye-get e(oldw,myx,myd) 
return (oldw-ta*mye*myx,mye) 
def get е (myw,myx,myd): 
return myd-get v (myw,myx) 
mycount-0 
while True: 
mye-0 
i-0 
for xn in x: 
w,e-neww (w,d[i],xn,a) 
і+=1 
mye+=pow (e, 2) 
mye/=float (i) 
mycount-4-1 
print u"$€ £d 次 调整 后 的 权 值 : "Smycount 
print w 
print u" 误 差 : $f"$mye 
if mye<expect e or mycount>maxtrycount:break 
for xn in x: 
print "ѕа or $d => $d "S$(xn[1],xn[2],get v(w,xn)) 





下 面 是 程序 的 运行 结果 ， 可 以 看 出 ， 通 过 13 次 迭代 ， 训 | 练 结束 ， 对 测试 值 的 输出 正确 。 
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[-0. 0. 0.1]3& É: 0.500000% 13 次 调整 后 的 权 值 : 
[-0. 0.1 0.1] 误 差 : 0.000000 
or 1 = ] 
or 0 => 
0 ог 1 => 
0 or 0 = 0 
>>> 
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p://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OE 


——X(n)e(n) 


BPS/Tex 








[5753/ОЕ! 














> 
( 








tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ek 

















BPS/Text 





tp://www.hzcourse.com/resource/readl 








Book?path-/openresources/teach ek 








另外 ， 可 应 用 LM 算法 实现 比 逻 辑 与 更 复杂 的 算法 ， 比 如 : 在 输入 和 矩阵 中 ， 如 果 x 向 量 的 整除 结果 为 6， 则 表示 为 一 类 ， 输 出 为 1; 若 结果 为 3 则 是 另 一 类 ， 输 出 为 -1。 代 码 如 下 : 


f!/usr/bin/env python 





#-*- coding: utf-8 


Mm 


#code :myhaspl(qq. com 


#8-6.ру 
import numpy as np 
b=1 

a=0.1 

x = np.array([ 











Г 
d -np.array([1,]1 
0, 




















[ 
w-np.array([b,0,0]) 
expect e-0.005 
maxtrycount-20 
def sgn(v): 
if у>0: 
return 1 
else: 
return -1 
def get v (myw,myx): 
return son (np. dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
mye-get e(oldw,myx,myd) 
return (oldw-ta*mye*myx,mye) 
def get е (myw,myx,myd): 
return myd-get v (myw,myx) 





mycount-0 

while True: 
mye-0 
i-0 





for xn in x: 


w,e-neww (w,d[i],xn,a) 








it-1 
mye-t-pow (e, 2) 
mye/-float (i) 
mycount+= 
prin 
print w 
prin XE: %f"smye 





for xn in x: 
print "$d 























„1,61, [1,2,12], [1,3,9], [1,8,24]]) 
р) 


un 第 за 次 调整 后 的 权 值 : "%mycount 


t и": 
if abs (mye)«expect e or mycount»maxtrycount:break 


$d => $d "S(xn[1],xn[2],get v(w,xn)) 














t)) 








test=np.array ([1,9,27]) 

print "sd $d => $d "$(test[1],test[2],get v(w,tes 
test-np.array([1,11,66]) = 

print "$d ва => $d "$S(test[1],test[2],get v(w,tes 





























t)) 


通过 9 次 训练 后 ， 误 差 率 为 0， 用 样本 数据 和 测试 数据 进行 验证 ， 准 确 无 误 。 下 面 是 执行 结果 : 






































ttp://www.hzcourse.com/resource/readl 














h 

h 

[ 1 

[ 1.4 -2.8 0.6]i&É: 0.000000 

1 6 => 1 

2 12 => 1 

3. 9 => =l 

8 24 = -1 

9 ОЎ =s =] 

11 66 => 1 
4.Rosenblatt 感 知 器 的 局 


限 性 


ttp://www.hzcourse.com/resource/readl 
1.4 -2.8 0.6] 误 差 : 3.000000% 9 次 调整 后 的 权 值 : 


Book?path-/openresources/i 


teach ebook/uncompressed/15753/O0 























Book?path-/openresources/1 














tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ek 


























teach ebook/uncompressed/15753/0 


不 是 所 有 的 数据 都 能 被 Rosenblatt 感 知 器 正确 分 类 。 比 如 说 下 面 的 样本 数据 : 


x = np.array([[1,1,6], [1,3,12], (1, 3,9], [1, 3,21], [1,2,16], [1, 3, 15]]) а -np.array([1,1,-1,-1,1,-1]) 





应 用 LMS 算 法 对 这 些 数 据 训 














66 => -1 























练 200 次 ， 效 果 仍 非常 差 ， 样 本 数据 和 测试 数据 都 无 法 正确 分 类 。 如 下 所 示 : 





tp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0l 
tp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0l 




















为 什么 会 出 现 这 种 情况 ? 试 着 修改 8-6.py 的 样本 数据 ， 同 时 绘制 包括 这 些 点 的 散 点 图 。 


#!/usr/bin/env python 





#-*- coding: utf-8 


一 大 一 


#code :myhaspl(qq. com 


#8-7.ру 
import numpy as пр 
import pylab as pl 
b=1 

a=0.1 





























x = np.array([[1,1,6],[ 
d -np.array([1,1,-1,-1,1,-1]) 
w-np.array([b,0,0]) 
expect е=0.005 
maxtrycount-200 
def sgn(v): 
if у>0: 
return 1 
else: 
return -1 
def get v (myw,myx): 


def 


return 








def ge 








mycount=0 

while True: 
mye=0 
i=0 





for xn in x: 


return зап (np.dot (myw.T,myx)) 
neww (oldw,myd,myx,a): 
mye-get e(oldw,myx,myd) 
(oldwta*mye*myx,mye) 
t e(myw,myx,myd) : 
return myd-get v (myw,myx) 


w,e-neww (w,d[i],xn,a) 


1+=1 





ту 
mye/-float 
mycount4-1l 
print u" 
print w 
print 
if 





for xn in x: 
print "$d 




















test-np.array([1,9 
print "$d $d = 
test-np.array([1,1 
print "$d ва = 
myx-x[:,1] 
myy-x[:,2] 
pi.subplot (111) 








x max-np.max (myx) + 
x min-np.min (myx)- 
y max-np.max (туу) + 








е+=рох (e, 2) 
(i) 


9- 





u"j&É: %Е"%шуе 
abs (туе) «expect e or mycount»maxtrycount:break 





sd 次 调整 后 的 权 值 : "ÉSmycount 


ва => $d "S$(xn[1],xn[2],get v(w,xn)) 



































t)) 








‚27]) 

> $d "S$(test[1],test[2],get v(w,tes 
1,66]) 

> $d "S(test[1],test[2],get v(w,tes 
10 

5 

50 


t)) 


1,3,12], [1,3,9], [1,3,21], [1,2,16], [1, 3, 15] ]) 











tp://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 














tp://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 











BPS/Text/..ht 
BPS/Text/..ht 
BPS/Text/..ht 
BPS/Text/..ht 

















tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ek 


































































































y min=np.min (myy) -5 
pl.xlabel (u"x") 
pl.xlim(x min, x max) 
pl.ylabel (u"y") 
pl.ylim(y min, y max) 
井 绘制 样本 点 
for i in xrange(0,len(d)): 
if d[i]»0: 
pl.plot(myx[i], myy[i], 'r*') 
else: 
pl.plot(myx[i], myy[i], 'ro') 
# 绘 制 测试 点 
test=np.array ([1,9,27]) 
pl.plot(test[1],test[2], 'bx') 
est-np.array([1,11,660]) 
pl.plot(test[1],test[2], 'bx') 
pl.show() 
在 如 图 8-5 所 示 的 散 点 图 中 ， 实 心 圆圈 和 星 号 是 两 类 不 同 的 样本 点 ， 叉 号 为 测试 点 。 在 这 张 图 中 ， 无 法 画 出 一 条 线 来 将 两 类 点 分 开 ， 只 有 曲线 才能 将 它们 分 开 ， 但 线性 方程 根本 不 可 能 产生 的 曲线 ， 因 此 


Rosenblatt 感 知 器 不 适用 于 非 线 性 分 类 。 


ТО 
60 
50 
40 
30 
20 
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5.LMS 的 学 习 率 退火 算法 


模拟 退火 算法 来 源 于 固体 退火 原理 。 退 火 就 是 将 材料 加 热 后 再 经 特定 速率 冷却 ， 目 的 是 增 大 晶 粒 的 体积 ， 并 且 减 少 晶 格 中 的 缺陷 。 材 料 中 的 原子 原来 会 停留 在 使 内 能 有 局 部 最 小 值 的 位 置 ， 加 热 使 能 量 
变 大 ， 原 子 会 离开 原来 位 置 ， 而 随机 在 其 他 位 置 中 移动 。 退 火 冷 却 时 速度 较 慢 ， 徐 徐 冷 却 时 粒子 渐 趋 有 序 ， 原 子 有 可 能 找到 内 能 比 原 先 更 低 的 位 置 ， 最 后 在 常温 时 达到 基态 ， 内 能 减 为 最 小 。 


根据 Metropolis 准 则 ， 粒 子 在 温度 T 时 趋 于 平衡 的 概率 为 e-AE/(kT)， 其 中 E 为 温度 T 时 的 内 能 ，AE 为 其 改变 量 ，k 为 Boltzmann 常 数 。 用 固体 退火 模拟 组 合 优化 问题 ， 将 内 能 E 模 拟 为 目标 函数 值 f{， 温 度 
T 演 化 成 控制 参数 tf， 即 得 到 解 组 合 优化 问题 的 模拟 退火 算法 : 由 初始 解放 0 控制 参数 初 值 t 开 始 ， 对 当前 解 重复 进行 “产生 新 解 一 计算 目标 浮 数 差 一 接受 或 舍弃 ”的 迭代 ， 并 逐步 衰减 t 值 ， 算 法 终止 时 的 当前 
解 即 为 所 得 近似 最 优 解 ， 这 是 基于 蒙特 卡 罗 和 迭代 求解 法 的 一 种 启发 式 随机 搜索 过 程 。 退 火 过 程 由 冷却 进度 表 控 制 ， 包 括 控制 参数 的 初 值 t 及 其 衰减 因子 At、 每 个 t 值 时 的 迭代 次 数 L 和 停止 条 件 S。 


针对 学 习 率 不 变化 、 收 敛 速度 较 慢 的 情况 ， 即 可 使 用 退火 算法 方案 ， 让 学 习 率 随时 间 而 变化 。 学 习 率 计算 公式 为 : 


П 


NA 


下 面 应 用 退火 算法 对 代码 8-6.py 做 一 些 改 动 ， 代 码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq.com 
#8-8.ру 

import numpy as пр 
import math 











а =np.array([1,1,-1,-1]) 
w-np.array([b,0,0]) 
expect e-0.05 
maxtrycount-20 











mycount-0 
def sgn(v): 
if у>0: 
return 1 
else: 
return -1 





def get у (myw,myx): 
return зап (np.dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 

mye-get e(oldw,myx,myd) 

a-a0/ (1+float (mycount) /r) 

return (oldw*ta*mye*myx,mye) 
def get е (myw,myx,myd): 

return myd-get у (туи, тух) 
while True: Е 

mye-0 

i-0 
for xn in x: 

w,e-neww (w,d[i],xn,a) 

T == 


mye+=pow (e, 2) 





























mye-math.sqrt (туе) 

mycount-4-1 

print u"$€ £d 次 调整 后 的 权 值 : "Smycount 
print w 








print u"j&É: $f"$mye 
if abs (mye)«expect e or mycount»maxtrycount:break 
for xn in x: Е 

print "sd ва => $d "S(xn[1],xn[2],get v(w,xn)) 




































































cest-np.array([1,9,27]) 
print "$d ва => $d "S$(test[1],test[2],get v(w,test)) 
test-np.array([1,11,606]) 
print "$d ва => $d "S$(test[1],test[2],get v(w,test)) 


从 程序 运行 结果 来 看 ， 仅 仅 7 次 就 完成 了 训练 ， 训 练 次 数 大 大 减少 。 








































































































http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
[ 1.28888889 -1.55238095 0.29642857]i& É: 3.464102% 7 次 调整 后 的 权 值 : 

[ 1.28888889 -1.55238095 0.29642857]i& É: 0.000000 

1 6 => 1 

2 12 => 1 

3 9 => -1 

8 24 => -1 

9 27 => -1 

11 66 => 1 

>>> 


81.2 梯度 下 降 


1. 梯 度 下 降 概 述 
上 一 节 中 曾 提 到 梯度 的 概念 ， 究 竟 什 么 是 梯度 和 梯度 下 降 呢 ? 


梯度 是 一 个 向 量 场 ， 标 量 场 中 某 一 点 上 的 梯度 指向 标量 场 增长 最 快 的 方向 ， 梯 度 的 长 度 是 这 个 最 大 的 变化 率 。 梯 度 下 降 ， 就 是 利用 负 梯 度 方向 来 决定 每 次 迭代 的 新 的 搜索 方向 ， 从 而 使 得 在 每 次 迭代 过 
程 中 ， 都 能 让 待 优化 的 目标 函数 逐步 减 小 。 梯 度 下 降 法 使 用 的 是 二 范 数 下 的 最 速 下 降 法 。 最 速 下 降 法 的 一 种 简单 形式 如 下 : 


x(k--1) 2x(k)-a*g(k) 
其 中 ，a 称 为 学 习 速 率 ， 可 以 是 较 小 的 常数 。g(k) 是 x(k) 的 梯度 。 


机 器 学 习 算 法 效果 究竟 如 何 ， 或 者 说 误差 为 多 少 ， 可 以 用 误差 函数 J(9) 来 度量 。 其 中 的 参数 9 在 神经 网 络 中 可 以 理解 为 权 值 。 如 何 调 整 权 值 6 以 使 得 J(6) 取 得 最 小 值 有 很 多 方法 ， 梯 度 下 降 法 是 按 下 面 的 步 
又 进行 的 : 


1) 对 6 赋值 ， 这 个 值 可 以 是 随机 的 ， 也 可 以 让 6 是 一 个 全 零 的 向 量 。 

2) 改变 6 的 值 ， 使 得 J(9) 按 梯度 下 降 的 方向 进行 减少 。 

为 了 更 清楚 地 表达 ， 先 来 看 一 下 如 图 8-6 所 示 的 误差 曲面 及 梯度 下 降 图 。 

图 8-6 是 表示 参数 6 与 误差 国 数 J(9) 关 系 的 图 ， 也 称 误 差 曲面 图 。 该 图 上 的 方向 表明 ， 随 着 迭代 次 数 的 增加 ， 误 差 走向 了 曲面 的 最 小 误差 点 。 

红色 较 凸 起 的 部 分 是 表示 J(9) 有 着 比较 高 的 取 值 ， 对 其 进行 神经 网 络 训练 时 ， 最 完美 的 目标 是 : 让 J(6) 的 值 尽量 低 ， 降 到 最 低 处 ， 也 就 是 最 目的 部 分 。60、61 表 示 6 向 量 的 两 个 维度 。 


梯度 下 降 法 的 第 一 步 是 给 6 一 个 初 值 ， 假 设 随机 给 的 初 值 是 在 最 高 的 十 字 点 处 ;然后 将 6 按照 梯度 下 降 的 方向 进行 调整 ， 就 会 使 得 J(6) 往 更 低 的 方向 变化 ， 如 图 8-7 所 示 。 算 法 的 结束 将 是 在 6 下 降 到 无 法 
继续 下 降 为 止 。 当 然 ， 可 能 梯度 下 降 的 最 终点 并 非 是 全 局 最 小 点 (图 8-6 的 路 径 中 的 最 后 一 个 点 ) ， 而 是 一 个 局 部 最 小 点 (图 8-7 的 路 径 中 的 最 后 一 个 点 ) ， 比 如 图 8-7 所 示 的 情况 ， 而 图 8-6 中 的 曲线 路 径 则 
是 完美 的 梯度 下 降 过 程 。 


图 8-7 中 所 示 的 这 种 情况 是 在 神经 网 络 训练 中 要 尽量 避免 出 现 的 ， 这 里 的 梯度 下 降 到 局 部 最 小 点 后 停止 ， 神 经 网 络 在 一 个 不 正确 的 位 置 收 剑 了 ， 训 练 停 止 ， 这 时 即使 继续 训练 也 没有 任何 效果 。 


Gradient Descent Algorithm 
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图 8-6 ”误差 曲面 及 梯度 下 降 ( 附 彩 图 ) 
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图 8-7 落 到 局 部 最 小 点 的 梯度 下 降 ( 附 彩 图 ) 


2. 梯 度 下 降 法 涉及 的 数学 知识 


1) 导数 的 几何 意义 : 导数 的 几何 意义 在 于 ， 函 数 在 某 一 点 的 导数 等 于 它 的 图 像 上 这 一 点 处 之 切线 的 斜率 ， 如 图 8-8 所 示 。 
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图 8-8 FA 


tana = lim tan o = lim J o + Ax) - f (xo) 
Ax 一 (0 Ax—0 Ax 


2) 积分 的 几何 意义 : 对 于 一 个 给 定 的 正 实 值 函 数 f(x)，f(x) 在 一 个 实数 区 间 [a, b] 上 的 定 积 分 为 : 
a 
| Ь f(x)dx 
定 积 分 的 几何 意义 可 以 理解 为 在 Oxy 坐 标 平面 上 ， 由 曲线 (x，f(x))、 直 线 x=a，x=b 以 及 x 轴 围 成 的 曲 边 梯形 的 面积 ， 这 个 面积 可 以 是 一 块 面积 ， 也 可 以 是 多 块 面积 的 和 (注意 ， 这 里 的 面积 有 正 负 之 


3) 微分 的 几何 意义 : 一 元 函数 的 微分 与 自 变量 的 微分 之 商 等 于 该 函数 的 导数 ， 所 以 导数 也 叫做 微 商 。 


设 Ax 是 曲线 y=f(x) 上 的 点 P 在 横 坐 标 上 的 增 量 ，Ay 是 曲线 在 点 P 处 相对 于 Ax 的 纵 坐 标 增 量 ，dy 是 曲线 在 点 P 的 切线 对 应 Ax 在 纵 坐 标 上 的 增 量 ， 如 图 8-9 所 示 。 





4) 偏 导数 : 拥有 多 个 自 变量 的 遂 数 的 偏 导 数 是 指 在 保持 其 他 自 变量 恒定 的 情况 下 ， 该 函数 相对 于 其 中 某 个 自 变量 的 导数 。 函数 {关于 变量 x 的 偏 导数 写 为 fy 或 下。 


f 是 一 个 多 元 函数 。 例 如 : 


f(x, у)=х2+ху+у2 





X 


图 8-9 ”微分 


因为 曲面 上 的 每 一 点 都 有 无 穷 多 条 切线 ， 摘 述 这 种 函数 的 导数 相当 困难 。 偏 导数 就 是 选择 其 中 一 条 切线 ， 并 求 出 它 的 斜率 。 


多 自 变量 函数 fx1，…，xm) 在 点 (a1，…， 


5) 梯度 : 欧 几 里 得 空间 R "中 的 函数 f(x1 , 


这 个 向 量 称 为 f 在 点 a 处 的 梯度 。 


3. 梯 度 下 降 的 原理 


如 果实 值 函 数 F(Xx) 在 点 a 处 可 微 且 有 定义 ， 那 么 该 函数 在 a 点 沿 着 梯度 相反 的 方向 下 降 最 快 ， 从 函数 F 对 局 部 极 小 值 的 初始 估计 值 xo 出 发 ， 存 在 如 下 序列 x0，x1，x2，…, 


因此 可 得 到 


аһ) 处 ， 对 于 某 个 自 变量 xi 的 偏 导数 ， 其 定义 为 : 


h—0 h 


a XX SET EISE EDGEUS RSRS N, Фрай, ШЕЕ ЕУ Y — 918: 


of 


Ox, 


of 


Ox, 


Vf (a) = | — (a), (a) 


Xn-1——Xn— Уһ V F (x4).n = 0 


x+A x 


J (a, а, th,-,a,)—/(a,,:,a,) 


X 


p 


F(xy) F(x1) 2 (хо) > 


如 果 顺 利 的 话 ， 序 列 (Xn) 将 收敛 到 期 望 的 极 值 。 


4. 梯 度 下 降 和 delta 法 则 


delta 法 则 克服 了 感应 器 法 则 的 不 足 ， 在 线性 不 可 分 的 训练 样本 上 ， 可 以 有 效 地 收敛 ， 并 接近 目标 的 最 佳 近似 值 。delta 法 则 的 关键 思想 是 : 使 用 梯度 下 降 来 搜索 可 能 的 权 向 量 假设 空间 ， 以 找到 最 佳 拟 
合 训练 样 例 的 权 向 量 。 


delta 法 则 为 反 向 传播 算法 提供 了 基础 ， 而 有 反 向 传播 算法 能 够 学 习 多 个 单元 的 互连网 络 ， 在 包含 多 种 不 同类 型 的 连续 参数 化 假设 的 空间 中 ， 梯 度 下 降 是 必须 遍历 这 样 的 空间 的 所 有 算法 的 基础 。 

误差 曲面 是 一 个 抛物 面 ， 存 在 一 个 单一 全 局 最 小 值 ， 梯 度 下 降 搜 索 从 一 个 任意 的 初始 权 向 量 开 始 ， 然 后 沿 误差 曲面 最 陡峭 下 降 的 方向 ， 以 很 小 的 步伐 反复 修改 这 个 向 量 ， 直 到 得 到 全 局 的 最 小 误差 点 。 
5. 基 于 梯度 下 降 的 线性 分 类 器 

下 面 总 结 一 下 前 面 介绍 的 线性 神经 网 络 代 码 ， 并 将 它们 整理 成 Python 模块 nplannliner， 然 后 引入 这 个 模块 ， 实 现 对 一 组 输入 的 线性 分 类 。 以 下 程序 有 详细 的 注释 说 明 。 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#8-9.ру 

import mplannliner as nplann 

traindatal-[[[9,25],-1]; [ [5,8] ,71, [[15, 31], 71], [[35, 62] , -1], [[19, 40] , 7-11, [128,6 

5],11,[1[20,59],1], [[9, 41], 1], [112,60], 1], [[2, 37], 11] 

myann-nplann.Mplannliner () 

# 样 本 初始 化 

myann.samples init (traindatal) 

EF 2) 342646 

myann.a init(0.1) 

# 搜 索 时 间 常 数 初始 化 

myann.r init(50) 

# 最 大 训练 次 数 

myann.maxtry init(500) 

# 期 望 最 小 误差 

myann.e init(0.05) 

# 训 练 

myann.train() 

M Re, REA, ЧЖАН 

myc-myann.simulate ([35,68]) 

print "[35,68]" 

if myc--1: 

print u" 正 类 " 

else: 
print u" 负 类 " 

# 将 测试 点 在 最 终 效果 图 上 显示 出 来 ， 将 它 加 入 drawponint 集 ， 测 试点 表现 为 "*"，, 并 且 色 彩 由 其 最 终 的 分 类 结果 而 决定 

myann.drawponint add([35,68]) 

mycemyann.simulate ([35,82]) 

print "[35,82]" 

if myc--1: 

print u"jEAX" 

else: 
print u" 负 类 " 

myann.drawponint add([35,82]) 

myann.draw2d() 

# 下 面 直接 使 用 默认 参数 进行 训练 

traindata2-[[[9,25,30],-11],[[5,8,12],-1], [[15, 31, 49], -1], [135, 62,108], 

-11,11[19,40,60],-11,1[28,65,98],1], [[20, 59, 72], 1], [[9, 41, 38], 1], [[12, 60, 46], 1], [ I2, 37, 

18],1]] 

myann2-nplann.Mplannliner () 

myann2.samples init (traindata2) 

myann2.train() 

mycemyann2.simulate ([35,68,110]) 

print "[35,68,110]" 

if myc--1: 

print u" 正 类 " 

else: 
print о" й Xx" 

































































如 图 8-10 所 示 是 程序 运行 生成 的 效果 图 ， 虚 线 是 分 类 线 ， 它 清晰 地 将 不 同类 的 点 分 成 了 上 下 两 部 分 。 星 号 为 测试 数据 ， 可 以 看 到 ， 已 被 正确 分 类 。Rosenblatt 感 知 器 对 线性 分 类 效果 还 是 不 错 的 。 
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图 8-10 ”线性 分 类 效果 


mplannliner 模 块 的 代码 如 下 : 





#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code :myhaspllqq. сот 
dauthor: Xf 

12013-07-25 

import numpy as np 

import math 

import matplotlib.pyplot as plt 
class Mplannliner: 





















































def init (self): 
self.b-] 
self.a0-20.1 
self.a-0.0 
self.r-20.0 
self.expect e-0.05 























self.traincount-100 

self.testpoint-[] 
def testpoint init (self): 

self.testpoint-[] 











def e init(self,mye): 


self.expect e-mye 
def samples init (self,mysamples): 





























my x =[] 

my d -[] 

my w —-[self.b] 
myexamp-mysamples 





for mysmp in myexamp: 
tempsmp-[1]-mysmp [0] 
my x.append (tempsmp) 
my d.append (mysmp [1] 
for i in range (len (my x[0])- 
my w.append (0.0) 
self.x = np.array (my x) 
self.d = np.array (my d) 
self.w = np.array (my и) 
def a init(self,mya): 
self.a0-mya 
def r init(self,myr): 
|. self.r=myr 
def maxtry init (self,maxc): 
self.traincount-maxc 
def sgn(self,v): 

if v>0: 











) 
1): 






























































return 1 





else: 
return -1 
def get v(self,myw,myx): 
return self.sgn(np.dot (myw.T,myx)) 
def neww (self,oldw,myd,myx,a,mycount): 
mye-self.get e(oldw,myx,myd) 












































self.a-self.a0/(14mycount/float (self.r)) 
return (oldwta*mye*myx,mye) 
def get e(self,myw,myx,myd): 
return myd-self.get у (тун, тух) 
def train(self): 
mycount- 
while True: 
mye-0 
i-0 
for xn in self.x: 
self.w,e-self.neww(self.w,self.d[i],^ 
xn,self.a,mycount) 
і+=1 
mye-t-pow (e, 2) 
mye-math.sqrt (mye) 
mycount-4-1 
print u" 第 $d 次 调整 中 … 误 差 : $f"% (mycount,mye) 
if abs (mye)<self.expect e or mycount>self.traincount: 
if mycount»self.traincount: 
print "已 经 达到 最 大 训练 次 数 :$d"%mycount 
break 
def simulate (self,testdata): 
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if self.get v(self.w,np.array ([1]+testdata))>0: 
return 1 

else: 
return -1 





self.testpoint.append (point) 
def draw2d (self): 


def drawponint add(self,point): 




















for mysamp in self.x: 

emp x.append (mysamp [1]) 
emp y.append (mysamp [2]) 
Е self.d[i] > 0: 
plt.plot (mysamp[ 
else: 
.. plt.plot (mysamp[ 
Жер. 








H- сї c 











L]  mysamp [2], "or") 























1], шуѕатр [2], "og") 











mytestpointx-[] 
mytestpointy-[] 
for addpoint in self.testpoint: 

if self.simulate (addpoint)--"-*": 
plt.plot(addpoint[0],addpoint[1], '*r') 
else: 
plt.plot(addpoint[0],addpoint[1], '*g') 




























































































mytestpointx.append (addpoint [0]) 
mytestpointy.append (addpoint [1]) 
x max-max (max (temp x),max(mytestpointx))-5 
x min=min (min (temp x),min (mytestpointx)) 
y max=max (max (temp у) , тах (mytestpointy))-5 
y min-min (min (temp y),min (mytestpointy)) 





if x min »0: 





























y min, y max) 
("ANN-LINER[red:- green:-]" ) 
lp x1 = [x min, x max] 

lp х2 = [] Е 

myb-self.w[0] 
mywl-self.w[1] 
myw2-self.w[2] 

myy- (-myb-myw1*lp x1[0])/float (myw2) 
lp x2.append (myy) 

myy- (-myb-myw1*lp x1[1])/float (myw2) 
lp x2.append (myy) 

plt.plot(lp х1, 1 
plt.show() 
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8.1.3 Jp fef s e ERAS 
1. 反 向 传播 算法 


反 向 传播 算法 对 梯度 下 降 法 进行 了 改进 ， 主 要 由 两 个 环节 (激励 传播 、 权 重 更 新 ) 反复 循环 迭代 ， 直 到 | 网络 对 输入 的 响应 达到 | 预定 的 目标 范围 为 止 。 它 可 用 来 学 习 多 层 网 络 的 权 值 ， 通 过 搜索 一 个 巨大 
的 假设 空间 (这 个 空间 由 网 络 中 所 有 单元 的 所 有 可 能 权 值 定义 ) 得 到 误差 曲面 。 在 多 层 神 经 网 络 中 ， 误 差 曲 面 存在 全 局 最 小 值 ， 但 也 可 能 存在 多 个 局 部 极 小 值 ， 梯 度 下 降 法 不 能 保证 收敛 到 全 局 极 小 值 ， 但 
反 向 传播 算法 较 好 地 解决 了 这 个 问题 ， 在 实践 中 有 出 色 的 效果 。 反 向 传播 算法 有 以 下 特点 : 


1) 网 络 中 的 每 个 神经 元 模型 包括 一 个 非 线性 激活 函数 ， 非 线性 是 光滑 的 〈 即 处 处 可 微 ) 也 是 必要 的 ， 否 则 网 络 的 输入 输出 关系 会 被 归结 为 单 层 感知 器 。 
2) 网 络 包括 一 层 或 多 层 神经 元 的 隐 层 ， 它 不 负责 网 络 的 输入 输出 。 这 些 隐 层 神 经 元 逐步 从 输入 向 量 中 提取 有 用 特征 ， 使 网 络 学 习 复 杂 的 任务 。 

3) 网 络 的 连接 强度 由 网 络 突 触 决定 。 

反 向 传播 算法 的 主要 过 程 如 下 : 


1) 激励 传播 过 程 。 在 神经 元 | 的 激活 函数 输入 处 应 用 诱导 局 部 域 ujn)， 定 义 如 下 : 
n 
D; (n) 一 X Ww, (n)y,(n) 
i-0 


这 个 过 程 完成 逐 层 从 输入 层 传 播 至 输出 层 的 任务 。 

2) 权重 更 新 过 程 。 对 每 层 的 神经 元 的 权 值 进行 修正 ， 公 式 如 下 : 

Awj(0) 78i(n)y;(n) 

其 中 ，Awij(n) 是 指 神经 元 i 连接 到 神经 元 的 突 触 j 的 权 值 的 校正 值 ，n 是 学 习 率 ，6j(n) 是 局 部 梯度 。 
反 向 传播 算法 的 过 程 如 下 : 


从 建立 一 个 具有 期 望 数 量 的 隐藏 单元 和 输出 单元 的 网 络 开始 ， 初 始 化 所 有 的 网 络 的 权 值 为 较 小 的 随机 数 (0~ 1 的 实数 ) ; 然后 ， 给 定 一 个 固定 的 网 络 结构 ; 最 后 ， 算 法 的 主 循环 对 训练 样 例 进行 反复 和 迭 
代 ， 对 于 每 一 个 训练 样 例 ， 它 会 应 用 目前 的 网 络 到 这 个 样 例 中 ， 并 计算 出 对 这 个 样 例 网 络 输出 的 误差 ， 更 新 网 络 中 所 有 的 权 值 ， 然 后 对 这 样 的 梯度 下 降 步 又 进行 迭代 ， 直 到 网 络 的 性 能 达到 可 接受 的 精度 为 
止 。 


但 该 算法 存在 局 限 性 ， 仍 然 无 法 摆脱 陷入 局 部 最 小 误差 的 地 步 。 因 此 ， 要 在 此 基础 上 增加 冲 量 (动量 ) 项 。 通 过 修改 权 值 更 新 法 则 ， 使 第 n 次 迭代 时 权 值 的 更 新 受到 第 n-1 次 迭代 的 影响 ， 即 本 次 和 迭代 的 
更 新 值 的 计算 ， 有 部 分 参数 来 自 于 上 次 迭代 的 更 新 值 ， 这 样 ， 冲 量 有 时 会 滚 过 误差 曲面 的 局 部 极 小 值 ， 并 在 梯度 不 变 的 区 域内 逐渐 增 大 搜索 步 长 ， 加 快 收敛 ， 从 而 减少 训练 次 数 。 


2. 多 层 感 知 器 网 络 


多 层 感知 器 利用 非 线 性 神经 元 作为 中 间 隐 藏 层 神经 元 ， 输 出 端 可 以 直接 使 用 非 线性 神经 元 ， 也 可 以 使 用 线性 神经 元 。 如 图 8-11 所 示 是 一 个 拥有 两 个 隐藏 层 的 多 层 感 知 器 网 络 。 


在 图 8-11 中 ， 网 络 由 输入 层 、 隐 藏 层 及 输出 层 构 成 ， 它 能 够 表示 种 类 繁多 的 非 线 性 曲面 ， 多 层 网 络 能 在 隐藏 层 自动 发 现 并 被 有 效 表 示 。 它 允许 学 习 器 创造 出 设计 者 没有 明确 引入 的 特征 ， 网 络 中 使 用 的 
单元 层 越 多 ， 可 以 创造 出 的 特征 越 复杂 。 


多 层 感知 器 的 激活 函数 及 局 域 梯 度 如 下 。 


输入 信号 | 
(刺激 ) 7 


| 


输出 信号 
(PY ) 





1) logistic 国 数 。logistic 国 数 的 定义 为 : 


它 又 称 sigmoid 曲 线 (5382) ， 如 图 8-12 所 示 是 它 的 图 像 ， 很 像 字母 3。 


图 8-12 sigmoidh R (Ж ) 


在 多 层 感知 器 中 ，logistic 函 数 可 作为 神经 元 j 的 激活 函数 ptojtn)， 它 定义 为 : 


] 


ттер асди)“ 


其 中 ，uj(n) 是 神经 元 j 的 诱导 局 部 域 。 

logistic 函 数 的 局 部 梯度 需要 分 两 种 情况 定义 : 
第 一 种 情况 ， 神 经 没有 位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 
8\(п)=а(д(п)-о(п))о(п)(1-оу(п)) 


第 二 种 情况 ， 神 经 j 位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 
8,(п)=ау,(л)(1— у (п) 6, (nwy (п) 
k 


2) tanh 函 数 。tanh ( 双 曲 正切 ) 函数 的 数学 定义 为 : 


| е-е” 
sinh x = 
P ^ — y 
e' +e 
cosh x = 
sinh(x 
tanh x = sinh(x) 
cosh(x) 


双 曲 正切 函数 的 图 像 如 图 8-13 所 示 。 


logistic pK% 





8-13 ” 双 曲 正切 函数 
在 多 层 感 知 器 中 ， 双 曲 正切 函数 可 作为 神经 才 j 的 激活 函数 j(uj(tn))， 它 定义 为 : 
qi (uj(0)) = atanh(bo;(n)) 
其 中 ，a 和 b 为 正 的 常数 值 ，vj(n) 是 神经 元 j 的 诱导 局 部 域 。 
双 曲 正切 函数 的 局 部 梯度 需要 分 两 种 情况 定义 : 


第 一 种 情况 ， 神 经 元 没有 位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 


Ó (п) = 2 (4 (п) о (п))(а —o (n))a(a +o, (n)) 
"ur : 


第 二 种 情况 ， 神 经 j 位 于 隐藏 屋 ， 则 局 部 梯度 定义 为 : 


5 (n) =“ (d—y (n) (a + yn) 98, (ws, (т) 


前 面 说 过 ， 多 层 感知 器 利用 非 线性 神经 元 作为 中 间 隐 藏 层 神经 元 ， 非 线性 神经 元 使 用 双 曲 正切 国 数 或 logistic 国 数 作为 激活 陋 数 ， 使 用 非 线性 神经 元 或 使 用 线性 神经 元 组 成 输出 层 。 多 层 感 知 器 的 训练 需 
要 很 多 样本 ， 其 中 每 个 样本 的 学 习 过 程 分 为 前 向 计算 和 反 向 计算 。 


前 向 计算 根据 权 值 矩阵 由 前 向 后 一 层 层 神经 元 地 推进 ， 每 次 推进 根据 权 值 计算 每 层 的 输出 值 ， 反 向 计算 根据 输出 结果 与 目标 输出 的 误差 来 由 后 向 前 调整 神经 网 络 的 权 值 ， 引 入 冲 量 作为 神经 网 络 权 值 调 
整 的 依据 之 一 ， 冲 量 (动量 ) 参数 既 可 以 调整 学 习 速 度 ， 还 能 体现 时 间 延 迟 。 


整个 算法 过 程 也 是 反 向 传播 算法 的 过 程 ， 通 过 使 用 梯度 下 降 方法 搜索 可 能 假设 的 空间 ， 迭 代 减 小 网 络 的 误差 以 拟 合 训练 数据 。 

如 果 不 调 用 神经 网 络 的 中 间 库 ， 自 己 编写 所 有 的 代码 ， 需 要 把 握 好 以 下 要 点 : 

1) 学 习 率 和 动量 参数 。 输 入 层 、 输 出 层 、 中 间 层 的 学 习 率 和 动量 参数 不 同 。 输 出 层 的 学 习 率 较 低 ， 动 量 参数 较 高 ; 输入 层 的 学 习 率 较 低 ， 动 量 参数 较 低 。 

2) 权 值 。 权 值 矩 阵 非常 重要 ， 一 个 好 的 权 值 矩 阵 能 使 网 络 快速 收 你 ， 让 网 络 更 稳定 。 关 于 权 值 初始 化 的 策略 ， 可 以 选择 以 下 几 种 方法 : 

| 随机 初始 化 。 

` 逐步 搜索 法 。 

: Neguyen-Widrow 初 始 化 算法 ，MATLAB 使 用 Nguyen-Widrow 权 值 矩 阵 初 始 化 算法 。 

3) 输出 层 处 理 ， 为 了 确保 输出 层 输出 的 数据 符合 预测 结果 的 要 求 ， 需 要 另外 的 函数 对 输出 层 进 行 处 理 。 在 线性 神经 网 络 中 ， 通 常 使 用 硬 限 幅 函数 ， 在 多 层 感知 器 这 种 非 线 性 神经 网 络 中 既 可 以 使 用 硬 限 
幅 ， 也 可 以 使 用 其 他 浮 数 ， 具 体 使 用 什么 浮 数 要 看 训练 效果 如 何 。 

Д) 数据 预 处 理 。 输 入 数据 五 花 八 门 ， 在 训练 之 前 对 数据 进行 预 处 理 是 非常 必要 的 。 通 过 预 处 理 权 值 矩阵 使 进入 神经 网 络 的 数值 不 会 过 大 或 过 小 ， 以 保证 通过 中 间 层 的 非 线 性 神经 元 时 ， 输 出 不 允 近 其 极 


先 来 看 图 8-14， 上 面 显 示 的 数据 散乱 且 不 均匀 。 


20 


15 


U 





图 8-14 散乱 的 数据 


数据 预 处 理 的 目标 是 : 将 图 8-14 中 的 数据 转化 为 如 图 8-15 所 示 的 形式 ， 数 据 均匀 地 分 布 在 坐标 系 中 ，4 个 象限 均 有 数据 存在 。 
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图 8-15 均匀 分 布 的 数据 


前 面 讲述 了 多 层 感知 器 的 理论 基础 ， 下 面 用 Python 实现 一 个 多 层 感 知 器 ， 理 论 联系 实践 ， 这 样 才能 更 好 地 理解 反 向 传播 算法 和 多 层 感知 器 。 这 里 要 实现 的 是 使 用 感知 器 将 一 组 数据 进行 非 线 性 分 类 ， 具 
体 要 求 为 : 对 下 面 这 组 输入 数据 和 输出 目标 进行 训练 ， 对 未 知 数据 进行 仿真 测试 。 


[[4,11], [7, 340], [10,95], [3,29], [ 
[[1,0], 10,11, [1,0], [0,1], [1,0], [0,1 


x 
q 


为 了 简化 实现 过 程 ， 使 用 原始 的 纯 随机 生成 方法 产生 多 层 感知 器 网 络 的 权 值 矩阵 。 权 值 初始 值 既 要 保证 权 值 矩阵 实现 输入 项 在 网 络 中 均匀 分 布 ， 又 要 保证 权 值 矩阵 本 身 的 均匀 分 布 。 为 达到 这 个 目的 ， 
随机 生成 若干 个 权 值 和 矩阵 ， 然 后 从 中 选择 最 优化 的 权 值 矩阵 。 最 优化 的 标准 为 : 


1) 对 于 输入 层 的 权 值 设计 ， 要 尽量 使 输入 数据 的 方差 接近 1。 此 外 ， 对 于 相差 较 大 的 样本 ， 将 它们 处 理 为 分 布 不 太 接 近 饱 和 的 可 供 训练 的 输入 数据 。 
2) 权 值 矩阵 的 均值 要 尽 可 能 小 ， 其 方差 尽 可 能 与 神经 元 的 突 触 连 接 数 成 反比 。 
同时 ， 要 考虑 到 数据 的 预 处 理 ， 需 要 在 输入 层 前 设置 一 个 预 处 理 权 值 矩 阵 ， 所 有 的 输入 经 过 预 处 理 权 值 矩阵 处 理 后 进入 多 层 感知 器 的 输入 层 。 代 码 如 下 : 


# 对 输入 数据 进行 预 处 理 
ann max-[] 
for m апі in xrange(O0,warray txn) : 
temp x-np.array(train x) 
ann max.append (np.max(temp x[:,m ani])) 
ann max-np.array (апп max) и и 
def getnowsx (mysx,in w): 
'"'' 生 成 本 次 的 扩 维 输入 数据 ''' 
global warray n 
mysx-np.array (mysx) 
x end-[] 
for i in xrange(0,warray n): 
x end.append (np.dot (mysx,in м[:,1])) 
return x end Е 
def get inlw (my train max,w count,myin x): 
'"'' 计 算 对 输入 数据 预 处 理 的 权 值 ''' 
# 对 随机 生成 的 多 个 权 值 进行 优化 选择 ， 选 择 最 优 的 权 值 
global warray txn 
global warray n 
mylw-[] Е 
































y іп= [] 
# 生 成 测试 权 值 
mylw-np.random.rand(w count,warray txn,warray n) 

for ii in xrange (0,маггау txn): 
mylw[:,ii,:]emylw[:,ii,:]*1/float(my train max[ii])-N 
l/float(my train max[ii])*0.5 




















# 计 算 输 出 
for i in xrange(0,w count): 
y in.append([]) 





for xj in xrange(0,len(myin x)): 
y in[i].append(getnowsx (myin x[xj],mylw[i])) 





# 计 算 均 方差 
mymin-10**5 
mychoice-0 
for i in xrange(0,w count): 
myvar-np.var(y in[i]) 
if abs (myvar-1)«mymin: 
mymin-abs (myvar-1) 
mychoice-i 
# 返 回 数 据 整理 的 权 值 给 阵 
return mylw[mychoice] 
mylnww-get inlw(ann max,300,train x) 
def get inputx(mytrain x,myin w): 
'" "将 训练 数据 通过 输入 权 数 ， 扩 维 后 形成 输入 数据 ' 
end trainx-[] 
for і in xrange (0, len (mytrain x)): 
епа trainx.append (getnowsx (mytrain x[i],myin w)) 
return end trainx Е 
x-get inputx(train x,mylnww) 
def get siminx(sim x): 
global mylnww 
myxx-np.array(sim x) 
return get inputx (myxx,mylnww) 
def getlevelw(myin x,wo n,wi n,w count): 
' 7 计算 一 层 的 初始 化 权 值 矩阵 0 
mylw-[] 
y in-[] 
# 生 成 测试 权 值 
mylw-np.random.rand(w count,wi n,wo n) 
mylw-mylw*2.-1 Е id B 















































# 计 算 输出 





# 


m 





y in.append([]) 
xj in xrange (0, len (myin x)): 





for 





计算 均 方 差 
ymin-10**3 


mychoice-0 


x end-[] 








for i in xrange(0,w count): 


for myii in xrange(0,wo n): 


x end.append(np.dot(myin x[xj],mylw[i,:,myii])) 


y in[i].append 


(x end) 


for i in xrange(0,w count): 


myvar-np.var(y in[i]) 





if abs (myvar-1)«mymin: 
mymin-abs (myvar-1) 
mychoice-i 
# 返 回 数据 整理 的 权 值 给 阵 


csmylw-mylw [mychoice] 
return csmylw,y in[mychoice] 


ann w-[] 


de 





ann | 


def 


Е init annw(): 





=Q Q QQQ 


oba 


X 





oba] 


hidelevel 





oba] 


warray n 





oba] 


d 








oba] 





ann w 





Sil 








# 


ann w.append([]) 
if myn--hidelevel count-1: 
for iii in xrange (0,маггау n): 


l 


e 


e 


E 








‚ count 


lwyii-np.array (x) 
for myn in xrange(0,hidelevel 








_ count) : 


ann w[myn] .аррепа ([1) 





for jjj in xrange 
ann w[myn] 
lif myn--hidelevel count-2: 

templw, lwyii-getlevelw (lwyii,] 


(0,warray n): 








for xii 


in xrange (0,warray n): 





ann w[myn] .аррепа ( 





for 


for 


1) 


xjj in xrange(0,len(d[0])): 
ann w[myn] [xii].append (templw[xii,xjj]) 


xjj in xrange (len (а[0 








lse: 


ann w[myn] [xii].append (0.0) 








for xii 


in xrange (0,warray n): 





for 


ann w[myn] .аррепа ( 











global ann w 
print u" 产 生 权 值 初始 矩 阵 "， 
meanmin-1 
myann w-ann w 
alltry-30 
tryc-0 

while tryc«alltry: 


P 
p 
P 








i 


rint 
rint 





rin! 


print ", 


[]) 


хјј in xrange (0,warray n): 
ann w[myn] [xii].append (templw[xii,xjj]) 
ann w-np.array (ann w) 





Е generate lw(trycount): 


"Ç 
, 


init annw() 





for i i in range (trycount): 


[iii] .аррепа (0.0) 


еп (4[0]),маггау п, 200) 


),warray n): 


templw,lwyii-getlevelw(lwyii,warray n,warray n,200) 


if abs (np.mean (пр.аггау (ann w)))«meanmin: 


meanmin-abs (np.mean (np.array (ann w))) 
myann w-ann w 


tryct-1 





f abs (np.mean (np.array (myann w)))«0.008:break 
ann w-myann w 


u" 3x 4& E Ë : 
un 权 值 矩阵 方差 : 


generate lw(15) 


此 外 ， 只 需要 输出 一 个 值 ， 在 这 里 不 使 用 硬 限 幅 尔 数 ， 而 是 返回 最 大 值 的 索引 ， 因 此 需要 编写 对 输出 值 进行 最 后 加 工 的 函数 (注意 ， 为 了 由 浅 入 





9. 4 
51 
osn 
1 


оо 


后 此 函数 的 输出 结果 为 标准 ) 。 该 函数 的 定义 如 下 : 




















myresult .append (1.0) 


myresult.append (0.0) 








def o func (myy): 
myresult-[] 
for i in xrange (0, len (myy)): 
mean-np.mean (myy) 
if myy[i]»mean: 
else: 
return np.array (myresult) 
另外 ， 可 选 


de 


def 





a 
a 


tanh 


Е ann atanh (туу) : 


а=1.7159#>0 

















tanh b-2/float (3) #>0 


temp rs-atanh a*np.tanh(atanh b*myv) 
return temp rs 








"5 (np.mean (np.array (ann w))) 
(np.var (np.array (ann w))) 


са atanh (туу, туа, nowlevel,level,n,mydelta,myw): 





















































canh а) * (myd-myy)* (atanh а-туу) * (atanh а+туу) 











ann deli 

anndelta-[] 

atanh а=1.7159#>0 
atanh b-2/float (3) #>0 
if nowlevel--level: 

# 输 出 层 
anndelta- (float (atanh b)/a 

else: 

TIS SUE 
anndelta- (float (atanh b)/a 
temp rs-[] 
for j in xrange(0,n): 
anndelta-anndelta*temp rs 





return anndelta 


canh а) * (atanh a-myy)*(atanh а+туу) 


temp rs.append (sum (myw[j]*mydelta)) 


下 面 介绍 反 向 传播 的 核心 算法 ， 算 法 分 为 前 向 计算 和 反 向 计算 两 个 过 程 。 代 码 如 下 : 


de 














f sample train (myx,myd,n,sigmoid func,delta sigi 


' 一 个 样本 的 前 向 和 后 向 计算 "1 

















obal hidel 


obal ann yi 
obal ann delta 
obal ann w 
obal ann wj0 
obal апп y0 


evel count 





obal alllevel count 





obal learn r 














obal train a 
obal ann oldw 
evel-hidelevel count 








v dE 9 FO (Q (Q .Q .Q .Q .Q .Q .Q .Q 


level-all 


level count 





清空 Yi 输出 信 


号 数组 








4 
idelevel-hi 





delevel count 

















llevel count 





Fun): 


MA 


Ж» 


井 解 ， 从 现在 直到 后 面 明确 声明 ， 误 差 率 的 计算 以 最 


择 tanh 函 数 作为 非 线 性 神经 元 的 激活 函数 ， 它 的 输出 值 在 [-1，1] 范围 内 。 下 面 代码 完成 激活 函数 (ann_atanh 函 数 ) 及 其 局 部 梯度 (ann_delta_atanh 函 数 ) 的 计算 。 





for i in xrange (0,alllevel): 
# 第 一 维 是 层 数 ， 从 0 开始 
for j in xrange(0,n): 
# 第 二 维 是 神经 元 
ann yi[i][j]-0.0 
ann уі=пр.аггау (апп yi) 
yi-ann yi Е 
= аеібаж [= 
for i in xrange (0,hidelevel-1): 
for j in xrange(0,n): 
ann delta[i][j]-0.0 
delta-ann delta 
Р ТТЕ N, ИЛЕ F— ik 4 
ann oldw=copy.deepcopy (ann w) 
oldw-ann oldw Е 
# 前 向 计算 
Е isdebug:print u" 前 向 计算 中 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..." 
# 对 输入 变量 进行 预 处 理 
myo-np.array([]) 
for nowlevel in xrange (0,alllevel): 
# 一 层 层 向 前 计算 
EIS Е 308 
my y-[] 
myy-yi [nowlevel-1] 
myw-ann w[nowlevel-1] 
if nowlevel--0: 
# 第 一 层 隐 藏 层 
my y-myx 
yi[nowlevel]-my y 
elif nowlevel-- (alllevel-1): 
# A 
my y-o func(yi[nowlevel-1, :Іеп (пуа) ]) 
yi[nowlevel, :len (myd) | =ту y 
elif nowlevel-- (hidelevel-1): i 
# 最 后 一 层 输出 层 
for i in xrange (0, len (myd)): 
temp y-sigmoid func (np.dot (myw[:,i],myy)) 
my y.append(temp y) 
yi[nowlevel,:len (пуа) ]=my y 

















p: 










































































else: 
# 中 间 隐 藏 层 
for i in xrange (0, len (myy)): 
temp y-sigmoid func (np.dot (myw[:,i],myy)) 
my y.append(temp y) 
yi[nowlevel]-emy у 
if isdebug: 

print Unxxxxxx 本 样本 训 25 85 p i БЕККИ 

print yi 

print 也 类 火炎 火炎 火炎 火炎 火炎 火炎 类 火炎 火炎 火炎 火炎 火炎 火炎 火炎 炎炎 大大 大 大 可 





# 计 算 误 差 与 均 方 误差 
# 因 为 线性 输出 层 为 直接 复制 ， 所 以 取 非 线性 隐藏 输出 层 的 结果 
myo=yi [hidelevel-1][:len (myd) ] 
myo end-yi [alllevel-1][:len (туа) ] 
mymse-get e(myd,myo end) 
bs e A 
# 输 入 层 不 需要 计算 delta, 输出 层 不 需要 计算 多 
if isdebug:print u" 反 向 计算 中 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..." 
# 计 算 delta 
for nowlevel in xrange (level-1,0,-1): 

if nowlevel--level-1: 
mydelta-delta [nowlevel] 
my n-len (myd) 
























































mydelta-delta [nowlevel-*1] 

my n-n 
myw-ann w[nowlevel] 
f nowlevel--level-1: 




















кы 









































T h Ж 
mydelta-delta sigfun (myo, туа, None, None, None, None, None) 
## mydelta-mymse*myo 
elif nowlevel--level-2: 
# 输 出 隐藏 层 的 前 一 层 ， 传 输 相 当 于 输出 隐藏 层 的 神经 元 数目 的 数据 
mydelta-delta sigfun(yi[nowlevel],myd,nowlevel,level-1,my n,mydelta[:len (myd) ],myw[:, :len (myd) ]) 
else: 
mydelta-delta sigfun(yi[nowlevel],myd,nowlevel,level-1,my n,mydelta,myw) 















































delta[nowlevel][:my n]-«mydelta 
# 计 算 与 更 新 权 值 W 
for nowlevel in xrange (level-1,0,-1): 
# 每 个 层 的 权 值 不 一 样 

















if nowlevel--level-1: 
# mE 
my n-len (myd) 








mylearn r-learn r*0.8 
mytrain a-train a*1.6 
elif nowlevel--1: Е 

# 输 入 层 

my n-len (myd) 

mylearn r-learn r*0.9 
mytrain a-train a*0.8 


# 其 他 层 
my n-n 
mylearn r-learn r 
mytrain a-train a 
pre level myy-yi[nowlevel-1] 
pretrain myww-oldw [nowlevel-1] 
pretrain myw-pretrain myww[:,:my n] 
# 第 二 个 调 束 参数 
temp i-[] 
for i in xrange(0,n): 
temp i.append([]) 
for jj in xrange(0,my n): 

temp i[i].append(mylearn r*delta[nowlevel,jj]*pre level myy[i]) 
temp rs2-np.array (temp i) 
temp rslemytrain a*pretrain myw 
# 总 调整 参数 
temp change-temp rsl+temp rs2 
my ww-ann w[nowlevel-1]  - 
my ww[:,:my n]4-temp change 

















else: 















































if isdebug 
print "Ç Ww 
print о" Ек" 
print апп и 
print u"***j ЕЕ" 
print delta 
print "т "т 





return mymse 








还 需要 训练 神经 网 络 ， 并 读 取 测 试 数据 ， 验 证 效果 。 其 中 , ЛЛ 





练 神经 网 络 的 代码 如 下 : 


train() 

delta sigfun-ann delta atanh 
sigmoid func-ann atanh 

i-0 
for xn in xrange(0,len(x)): 























print u" 样 本 : $d-$d => "$(train х[хп] [0], train x[xn][1]) 
print simulate(x[xn],sigmoid func,delta sigfun) 

print u"===== F 4 B 标 值 =====" 

print d[i] 

1+=1 





验证 神经 网 络 的 代码 如 下 : 





test-np.array (get ` 


siminx([[8,70]])) 


o 











func,delta sigf 





print u" 测 试 值 : ФЕ sf "% (8,70) 
print simulate (test,sigmoid . 


print un 正确 目标 值 : 
test=np .array (ge 
print u" 测 试 值 : Sf 
print simulate (tes 
print u" Е АМИ: 
exitstr-raw input( 














t siminx([[6.5,272]]) 


t,sigmoid f 


[1,0]" 


NO 


sf "$(6.5,272) 




















[0,1]" 
u" 按 回 车 键 退出 ") 


Func,delta sigf 


un) 


un) 
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78 次 训练 ， 神 经 网 络 达到 了 训练 目标 ， 误 差 率 为 0。 从 以 下 运行 结 


吉 果 来 看 ， 效 果 不 错 。 


http: //www.hzcourse.com/resource/readl 
http: //www.hzcourse.com/resource/read 
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Book?path-/openresources/teach ebook/uncompressed/1 
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tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ek 














ics 开始 第 76 次 训练 --------- # # # # # 4$ 误差 为 : 0.816497 
=== === 开始 第 77 次 训练 --------- 4 4 4 # 4 #152859: 0.577350 
======= 开始 第 78 次 训练 --------- # * 4 # # # XE: 0.000000 训 练 成 功 ， 正 在 进行 检验 仿真 计算 中 仿真 计算 中 仿真 计算 中 仿真 计算 中 仿真 计算 中 仿真 计算 中 训练 成 功 ， 误差 为 : 0.000000 样 本 : 4-11 => 仿真 计算 中 
[ 1. 0.] 

===== 正 确 目 标 值 ===== 

[1，0] 样 本 : 7~340 => 仿真 计算 中 

[ O. ] 

— E 目标 值 ===== 

[0, 1 me 10-95 => 仿真 计算 中 

[ 1. 

oce T NN 

q. ded. => 仿真 计算 中 

[ 0. 

目标 值 ===== 

[0, 1 E 7443 => 仿真 计算 中 

[ 1. 

AMT. 目标 值 ===== 

[1，0] 样 本 : 5~128 => 仿真 计算 中 

[ 0. 1.] 

====== 正 确 目 标 值 ==== 

[0，11] 测 试 值 : 8.000000 70.000000 仿真 计算 中 

Г 1. 0.] 正 确 目标 值 : [1,0] 测 试 值 ;: 6.500000 272.000000 仿真 计算 中 
[ 0. 工 .] 正 确 目标 值 : [0, 1] 按 回 车 键 退出 








上 述 多 层 感 知 器 的 完整 源 代 码 见 本 书 资源 包 中 的 “多 层 感知 器 神经 网 络 源 代码 .doc” 文 件 或 8-10.py 文 件 。 


前 面 用 例子 说 明了 Rosenblatt 感 知 器 的 局 限 性 ， 现 在 在 多 层 感 知 器 上 对 Rosenblatt 感 知 器 无 法 分 类 的 数据 进 


绘制 散 点 图 的 代码 。 


务 。 


#x 和 d 样 本 初始 化 
train x = np.array([[ 
d =пр.аггау([[1,0],[1 




















http://www.hzcourse.com/resource/read 
http://www.hzcourse.com/resource/read 
for xn in xrange (0,1en (X) ) : 





1,6], [3,12], [3,9], 
„01, [0,1], [0,1], 














[xn],sigmoid 


train x[xn] [0], train x[xn] [1] 





























if simulate (x 
. pl.plot( 
else: 
pl.plot( 
pl.show() 


运行 代码 对 神经 网 络 进 


train x[xn][0],train x[xn][1], 


行 训练 ， 训 练 成 功 后 


[3,21], 
[1,0], 
Book?path-/openresources/teach ebook/uncompressed/1 
Book?path-/openresources/teach ebook/uncompressed/1 


[2,16], 
[0,1]]) 


[3,15] ]) 











func,delta sigfun) [0] > 0: 


j "bo" ) 








"рж" ) 


， 误 差 为 0。 如 图 8-16 所 示 为 训练 效果 ， 


行 测 试 。 将 “多 层 感 知 器 神经 网 络 源 代码 .doc” 文 件 中 的 代码 中 的 样本 数据 进 











5753/OEBPS/Text/..h 




















实心 圆圈 与 星 号 分 别 表示 两 类 样本 点 ， 








5753/0EBPS/Text/..h 





层 感 知 器 


行 修改 ， 并 加 


tp://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ek 




















络 的 非 线 性 分 类 成 功 完成 了 Rosenblatt 感 知 器 无 法 完成 的 任 


现在 在 上 述 代码 基础 上 ， 加 上 若干 随机 数据 点 ， 将 学 习 


f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#8-11.ру 

import pylab as pl 
import numpy as np 
import random 

import copy 
isdebug-False 

#x 和 d 样 本 初始 化 








率 设 得 较 小 ， 


5 


xl 


图 8-16 ”多 层 感 知 器 网 络 的 非 线 性 分 类 


进一步 观察 多 层 感知 器 的 非 线 性 分 类 能 力 。 代 码 如 下 : 


train x = np.array([[1,6], [3,12], [3,9], [3,21], [2,16], [3,15]]) 
d =пр.аггау (1 [1,01], [1,0], [0,1], [0,1], [1,0], [0,1]]) 








http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ероок/опсотргеѕѕеа/15753/0Е 
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train() 

delta sigfun-ann delta atanh 
sigmoid func-ann atanh 

temp x-np.random.rand (20) *10 

temp y-np.random.rand(20)*20-4temp x 












































myx-temp x 
пуу=сетр y 

pi.subplot (111) 

x max-np.max (myx)-45 
x min-np.min (тух) -5 
y max-np.max (myy) +5 
y min=np.min (myy)-5 
pl.xlabel (u"xl") 
pli.xlim(x min, x max) 
pl.ylabel(u"x2") 
pli.ylim(y min, y max) 
i-0 E Е 





for mysamp іп тух: 
test-get siminx([[mysamp,myy[i] 











pl.plot (mysamp, myy [i], "ro") 








pl.plot (mysamp,myy[i], "g*") 





for xn in xrange(0,len(x)): 
if simulate (x[xn],sigmoid f 
pl.plot(train x[xn][0], 
else: 


pl.plot(train x[xn][0], 



































pl.show() 


if simulate(test,sigmoid func,delta sigi 


train x[xn] [1] 


train x[xn] [1] 


11) 





unc,delta sigi 








Fun) [0] » 0: 


Fun) [0] 
; "bo" ) 





; "рж" ) 


> 0: 





BPS/Text 








10 





ЕИ 








tp://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 





























tp: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 








从 如 图 8-17 所 示 的 分 类 效果 中 ， 能 直观 感受 到 多 层 感知 器 的 非 线 性 分 类 能 力 。 其 中 ， 星 号 与 实心 圆圈 表示 的 数据 点 被 分 成 了 两 类 ， 它 们 之 间 的 界限 是 非 线性 表示 的 曲线 ， 而 不 是 线性 表示 的 直线 。 





U 5 10 


98-17 ” 非 线 性 分 类 


在 多 层 感知 器 学 习 中 ， 经 常 需要 用 到 一 个 概念 : 误差 曲线 。 误 差 曲线 体现 在 一 个 二 维 坐标 系 中 ，X 轴 表示 训练 次 数 ，Y 轴 表示 每 次 训练 的 误差 率 。 理 想 的 误差 曲线 是 随 着 X 的 增加 ，Y 值 不 断 平滑 减少 ， 这 
与 误差 曲面 相似 ， 误 差 曲 面 以 参数 为 自 变量 ， 这 些 都 形象 地 体现 了 梯度 下 降 的 概念 。 它 们 都 说 明了 一 个 道理 : 一 个 设计 良好 的 多 层 感 知 器 ， 随 着 训练 次 数 的 增多 ， 模 型 会 越 来 越 精确 ， 误 差 曲 面 会 朝 着 最 小 
点 向 下 滑动 ， 而 且 误 差 曲 线 也 在 下 降 。 


前 面 为 了 讲述 的 需要 ，“ 多 层 感 知 器 神经 网 络 源 代码 .doc” 文 件 所 示 代 码 对 误差 率 的 计算 以 最 终 输 出 结果 为 依据 计算 ,现在 在 神经 网 络 输出 层 的 后 面 册 增加 一 层 最 终 输出 层 ， 对 原 输出 层 的 结果 进行 再 
次 加 工 后 输出 。 本 书 在 以 后 涉及 的 相关 代码 中 ， 如 未 特别 说 明 ， 最 终 输 出 结果 是 指 新 增 的 最 终 输出 层 的 输出 结果 。 在 此 ， 将 误差 率 的 计算 公式 定义 为 : 






样本 数目 


设置 好 网 络 的 相关 参数 ， 将 期 望 误差 率 设 置 为 0.3， 然 后 加 入 绘制 误差 曲线 的 代码 。 在 列 出 代码 之 前 ， 先 介绍 一 下 前 面 没有 具体 涉及 的 问题 : 中 间 隐 藏 层 、 学 习 率 及 动量 参数 。 





一 般 认 为 ， 增 加 隐藏 层 数 可 以 降低 网 络 误差 ， 提 高 精度 ， 但 也 可 使 网 络 复杂 化 。 当 然 也 有 学 者 提出 了 反对 意见 ， 但 从 实践 经 验 来 看 ， 隐 藏 层 的 数目 过 少 无 法 实现 对 复杂 数据 的 学 习 ， 隐 藏 层 的 增多 增加 
了 网 络 的 训练 时 间 和 出 现 “ 过 拟 合 ”的 概率 。 


设计 神经 网 络 至 少 应 考虑 3 层 网 络 ， 其 中 有 一 层 隐 藏 层 ， 在 这 里 将 隐藏 层 的 层 数 及 每 层 节点 数 定 义 为 如 下 形式 : 
隐藏 层 的 层 数 = 每 个 样本 的 元 素 个 数 X4-2 
每 个 隐藏 层 的 节点 数 = 训 练 样本 数 -1 


目前 仍 有 学 者 在 对 学 习 率 和 动量 参数 进行 研究 。 什 么 样 的 学 习 率 能 既 加 快 神经 网 络 的 训练 时 间 ， 同 时 又 能 提高 训练 精度 呢 ? 动量 参数 设置 为 多 少 ， 更 适合 当前 学 习 率 ， 让 误差 曲线 在 下 降 过 程 中 尽 可 能 
地 跳出 局 部 最 小 值 的 陷阱 呢 ? 


如 果 学 习 率 设 得 过 大 ， 可 能 造成 训练 过 早 停止 ， 错 过 了 误差 曲线 的 全 局 最 小 值 ; 而 设 得 过 小 则 会 造成 训练 时 间 加 长 ， 同 时 容易 陷入 误差 曲线 的 局 部 最 小 值 。 动 量 参数 也 存在 类 似 的 问题 。 笔 者 认为 这 些 
参数 需要 在 实践 应 用 中 进行 调试 和 测试 ， 通 过 对 训练 效果 反复 对 比 ， 才 能 得 到 最 适合 的 参数 。 


根据 以 上 设计 思路 ， 用 Python 在 “多 层 感知 器 神经 网 络 源 代 码 .doc” 文件 代码 的 基础 上 实现 。 代 码 如 下 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#8-12.ру 

import numpy as np 

import matplotlib.pyplot as plt 
import random 








import copy 
isdebug-False 
#x 和 gd 样 本 初始 化 


train x = [ 


[4,11], [7, 340], [10, 95], [3,29], [7, 43] , [5, 128]] 


d =[[1,0], [0,1], [1,0], [0,1] , [1,0], [0,11] 


warray txn-len(train x[0]) 
warray n-len(train x)-1 

# 基 本 参数 初始 化 
oldmse-10**100 

fh-1 
maxtrycount-500 
mycount-0.0 

if maxtrycount»-20: 
r-maxtrycount/10 
else: 
r-maxtrycount/2 
#sigmoid j 

ann sigfun=None 

ann delta sigfun-None 
# E OU 4616, 
alllevel count-warray txn*4 

# 非 线 性 层 数 初 始 化 

hidelevel count-alllevel count-1 
# 学 习 率 参数 

learn r0=0.02 

learn r0*-2.5 

learn r-learn r0 

# 动 量 参 数 

train a0-learn r0*1.2 

train a0*—-0,0015 

train a-train a0 

# 误 差 率 

expect е=0.3 

ht 
























































比 非 线性 导数 多 一 层 线 性 层 














ht 
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Book?path-/openresources/1 





teach ebook/uncompressed/] 








tp://www.hzcourse.com/resource/readl 


Book?path-/openresources/1 





x max-len (err) 
x min-1 
y max-max (err) +0.2 

y min-0. 

] label (u"traincount") 
im(x min, x max) 

. ylabel (u"mse") 

im(y min, y max) 

= xrange (1, len (err)+1) 
err 
.plot (lp x1,1 
() 




















D tO 'O 'O 

















p x2, 'g-') 











дее, 
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E ed 





tp://www.hzcourse.com/resource/readl 








E es 
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th-/openresources/| 
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teach ek 





th-/openresources/| 


teach ek 





运行 代码 ， 执 行 结 果 如 下 : 
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Book?path-/openresources/i1 
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SEEN #35 5137 | 2k--------- 
$138 J3|2&k--------- 
521393] 2&--------- 





] 样本 : 7-340 => 仿真 计算 
1.] 

] 样 本 : 10-95 = 仿真 计算 中 
0.] 


] 样本 : 
1. 





[ ] 测 试 值 : 
[ 1. 0.] 
Ош 1. 








] 正确 目标 值 : [0,1] 


+ # 4 4 4 误差 为 : 0.309623 
# # # # k k 误差 为 : 0.330235 
ORO f f f 误差 为 : 0.284128 训 练 成 功 ， 正 在 进行 检验 仿真 计算 中 仿真 计算 中 仿真 计算 中 仿真 计算 中 仿真 计算 中 仿真 计算 中 训练 成 功 ， 输出 误差 为 : 0.000000 样 本 : 4-11 => 仿真 计算 


8.000000~70.000000 仿真 计算 中 
.] 正 确 目标 值 : [1,0] 测 试 值 : 6.500000~272.000000 仿真 计算 中 


teach ebook/uncompressed/1 
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..ht 
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th-/openresources/| 





Book?pa! 





teach ek 





th-/openresources/| 


teach ek 





从 上 述 代码 执行 结果 中 不 难看 出 ， 网 络 在 139 次 训 





练 后 ， 达 到 了 训 





练 误差 的 期 望 值 0.3， 对 测试 数据 和 样本 数据 的 验证 均 成 功 。 再 来 看 看 如 图 8-18 所 示 的 误差 曲线 ， 总 体 呈 现下 滑 趋 势 。 


0.5 


mse 


0.4 


0.2 


0.0 


图 8-18 中 的 曲线 并 不 平滑 ， 如 果 将 学 习 率 设 得 更 小 ， 曲 线 将 平滑 很 多 ， 计 


#!/usr/bin/env pyth 
#-*- coding: utf-8 





0.6 


on 
= 


#соае :myhaspl(qq. сот 


18-13.py 

import numpy as np 
import matplotlib.p 
import random 
import copy 
isdebug-False 

#x 和 gd 样 本 初始 化 


train x = [ 





yplot as plt 


20 


d =[[1,0], [0,1], [1,0], [0,1] , [1,0], [0,11] 


warray txn-len (trai 


n x[0]) 





warray n-len (train x)-1 


# 基 本 参数 初始 化 
oldmse-10**100 

fh-1 
maxtrycount-2000 
mycount-0.0 

if maxtrycount»-20: 
r-maxtrycount/10 
else: 
r-maxtrycount/2 
#siomoidx% žk 

ann sigfun=None 
































ann delta sigfun=No 
# E XC 3646, 
alllevel count-warr 





# 非 线 性 层 数 初始 化 
hidelevel count-all 
# >J Ж 50 

learn r0-20.005 
learn r0*-2.5 

learn r-learn r0 

h £ E 

h 




















程序 执行 结果 如 下 : 














: 1095 => 
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开始 第 354 次 训练 --------- # 
开始 第 355 次 训练 
开始 第 356 次 训练 
开始 第 357 次 训练 --------- # 
开始 第 358 次 训练 
开始 第 359 次 训练 


ne 


比 非 线性 导数 多 一 层 线 性 层 


ay txn*4 


level count-1 


com/resource/readi 


Book?pa! 














com/resource/readi 


com/resource/readi 


Book?pa! 


Book?pa! 








com/resource/readi 





Book?pa! 

















: 7~340 => 仿真 计算 中 


仿真 计算 中 


: 3 一 -29 => 仿真 计算 


t # dX 
误 
误 
误 
误 
误 








# 
# 
# 
# 
# 


[4,11], [7, 340], [10,95], [3,29], [7,43], [5, 1281] 


th-/openresources/| 


40 


图 8-18 











tEh=/openresources/1 


teach ebook/uncompressed/1 
teach ebook/uncompressed/1 














th=/openresources/t 
th=/openresources/t 
#25: 0.344559 
差 为 : 0.347000 
差 为 : 0.338863 
差 为 : 0.342834 
差 为 : 0.353655 
差 为 : 0 


teach ebook/uncompressed/1 
teach ebook/uncompressed/1 
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误差 曲线 ( 附 彩 图 ) 
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100 


练 次 数 也 将 增多 。 现 在 修改 代码 ， 将 学 习 率 减少 ， 重 新 绘制 误差 曲线 图 。 


com/resource/readi 


120 
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.280097 训 练 成 功 ， 正 在 进行 检验 仿真 计算 中 仿真 计算 中 仿真 计算 中 仿真 计算 中 仿真 计算 中 仿真 计算 中 训练 成 功 ， 输出 误差 为 : 0.000000 A: 4-11 => 仿真 计算 


[0，1] 样 本 : 7~43 => 仿真 计算 中 
[ 0.] 


[ ds ] 

=== Ë 确 H 标 值 ====== 

[1，0] 样 本 : 5~128 => 仿真 计算 中 
[ 0. 1] 

===== 正 确 目 标 值 ===== 





[0, 1]3jX4&: 8.000000~70.000000 仿真 计算 中 
[ 1. 0.] 正 确 目标 值 : [1,0] 测 试 值 ;: 6.500000~272.000000 仿真 计算 中 
[ 0. 1.] 正 确 目 标 值 : [0,1] 








从 执行 结果 可 看 出 ， 如 果 将 学 习 率 设 得 更 小 ， 训 | 练 次 数 确实 增多 了 ， 由 100 多 次 变 成 了 300 多 次 ， 相 比 上 次 的 训练 ， 每 次 训练 的 误差 率 降低 幅度 变 小 ， 如 图 8-19 所 示 为 误差 曲线 。 
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图 8-19 ”误差 曲线 


相 比 图 8-18 的 误差 曲线 ， 图 8-19 所 示 的 误差 曲线 下 降 趋 势 更 加 明显 ， 平 滑 很 多 ， 上 下 摆动 的 幅度 也 减 小 了 不 少 。 
8.1.4 Python 神经 网 络 库 


前 面 几 节 设计 和 完善 了 线性 和 非 线性 神经 网 络 ， 并 通过 Python 实 现 了 神经 网 络 ， 逐 步 前 述 了 怎样 设计 一 个 神经 网 络 ， 如 何 改 进 神经 网 络 ， 如 何 应 用 神经 网 络 完成 分 类 等 。 后 面 的 章节 还 将 对 这 些 程序 代 
码 进 行 改进 ， 介 绍 如 何 应 用 神经 网 络 进行 数据 拟 合 。 


“不 用 重复 造 轮子 ”， 实 践 中 除非 条 件 限制 (比如 : 受 限 谋 入 式 环境 等 应 用 ) 必须 编写 所 有 的 神经 网 络 代 码 ， 否 则 可 以 直接 调用 神经 网 络 相关 的 库 。 


目前 Python 关于 神经 网 络 的 库 较 多 ， 这 里 选择 纯 Python 库 实现 的 神经 网 络 库 Neurolab， 在 第 2 章 中 已 经 介绍 过 它 的 安装 与 配置 方法 ， 在 此 不 再 介绍 ， 下 面 直接 讲述 如 何 应 用 它 。 首 先进 入 Python 的 控 
制 台 ， 以 前 几 节 的 数据 为 例 ， 熟 悉 一 人 Neurolab 的 基本 使 用 方法 。 
>>> import neurolab as nl 


>>> train x = [[4,11], [7,340], [10,95], [3,29], [7,43], [5, 128]] 
>>> input-np.array(train x) 
























































>>> d =[[1], [0], [1], [0], [1], [0]] 
>>> target=np.array (d) 
>>> target 
array ([[1], 
[0], 
[0], 
[0]]) 
>>> input 
array ([[ 4, 11], 
[ 7, 340], 
10, 95], 
3, 29], 
7, 43], 
[ 5, 128140 
>>> net = nl.net.newff([[3, 10], [11, 400]], [5, 1]) 
>>> err = net.train(input, target, show-15) 
Epoch: 15; Error: 0.326594518922; 
Epoch: 30; Error: 0.0242485565317; 
The goal of learning is reached 








训练 完毕 后 ， 再 用 数据 测试 该 网 络 。 代 码 如 下 : 






































>>> net.sim([[3, 10]]) 
array([[ 0.99999326]]) 
>>> net.sim([[9, 80]]) 
array([[ 0.89054486]]) 
>>> net.sim([[6.5,272]]) 
array([[ 0.05707987]]) 
>>> net.sim([[10,80]]) 
array([[ 0.9448553]]) 
>>> net.sim([[5,125]]) 
array([[ 0.12198103]]) 
>>> net.sim([[5,100]]) 
array([[ 0.18880761]]) 


上 述 代 码 显示 ， 训 练 很 成 功 ， 测 试 数据 也 被 正确 分 类 。 


拥有 中 间 隐 藏 层 的 多 层 感 知 器 在 输入 与 输出 之 间 建 立 了 映射 关系， 这 种 映射 天 系 不 一 定 是 某 种 数学 模型 明确 定义 的 。 如 果 随 机 生成 无 规律 的 输入 值 和 输出 值 ， 这 些 值 之 前 的 关系 完全 未 知 ， 那 么 是 不 能 
建立 拥有 确定 数学 公式 的 映射 的 ， 但 可 通过 神经 网 络 来 建立 它们 之 间 的 数学 模型 。 代 码 如 下 : 


>>> import numpy as np 

>>> import neurolab as nl 

>>> input = np.random.uniform(-0.5, 0.5, (10, 2)) 
>>> output = np.random.uniform(-0.5, 0.5, (10, 1)) 
>>> err = net.train(input, output, show-15) 

>>> net = nl.net.newff([[-0.5, 0.5], [-0.5, 0.5]], [8, 11) 
>>> err = net.train(input, output, show-15) 

Epoch: 15; Error: 0.0676764691815; 

Epoch: 30; Error: 0.0131047452439; 

The goal of learning is reached 

>>> err[len(err)-1] 

0.0097660775986454906 

























































































上 述 代码 中 的 err[len(err)-1] 表 示 训 练 停止 后 的 误差 率 。 可 以 看 到 ， 训 练 后 精度 很 高 ， 误 差 率 小 于 0.01。 下 面 来 编写 代码 绘制 误差 曲线 。 


>>> import matplotlib.pyplot as plt 
>>> plt.plot (err) 
[xmatplotlib.lines.Line2D object at 0x04C173B0»] 














如 图 8-20 所 示 是 生成 的 误差 曲线 ， 能 明显 看 到 误差 曲线 很 平滑 。 但 此 处 的 误差 来 源 数 据 是 训练 15 次 采集 一 次 ,前 几 节 中 的 误差 曲线 是 每 训练 一 次 采集 一 次 。 因 此 ， 图 8-20 比 前 几 节 的 误差 曲线 更 为 平 
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图 8-20 ”误差 曲线 


通过 多 层 感 知 器 神经 网 络 ， 在 这 组 没有 联系 的 随机 生成 的 输入 和 输出 之 间 “ 强 行 ”建立 了 一 种 映射 关系。 在 测试 时 ， 通 过 未 在 样本 中 出 现 的 输入 数据 ， 能 得 到 符合 这 种 映射 关系 的 输出 。 这 种 映射 能 
非常 重要 ， 是 后 面 几 章 提 到 的 数据 拟 合 、 模 式 识别 等 机 器 学 习 任 务 的 基础 。 


82 ”统计 算法 
统计 分 析 算法 在 机 器 学 习 中 占有 重要 地 位 ， 在 此 ， 仅 介绍 几 种 常用 算法 。 


8.2.1 平均 值 


平均 值 是 统计 学 中 最 常用 的 统计 量 ， 用 来 表明 资料 中 各 观测 值 集中 较 多 的 中 心 位 置 ， 用 于 反映 现象 总 体 的 一 般 水 平 ， 或 分 布 的 集中 趋势 。 有 限 总 体 的 平均 值 定义 为 
n 
u= x!N 
i=] 


式 中 ，h 表 示 总 体 平均 值 ，N 表 示 总 体 所 包含 的 个 体 数 。 


平均 值 的 意义 在 于 : 不 仅 可 用 它 来 反映 一 组 数据 的 一 般 情况 ， 还 可 以 进行 不 同 数据 组 之 间 的 比较 ， 以 看 出 组 与 组 之 间 的 差别 。 下 面 随机 生成 两 组 随机 数 ， 对 它们 进行 分 析 。 代 码 如 下 : 


>>> y 
>>> x 
>>> x 
array([I 





np.random.uniform(-0.5, 0.5, (10, 1)) 
np.random.uniform(-0.5, 0.5, (10, 1)) 














-0.46954884] 
-0.39078561] 
0.05531789] 
[-0.06414516] 
[-0.00511995] 
[-0 
-0 
0 
-0 
0 











.41105398] 
.23416933] 
.1369419 | 
.45076555] 
.1808625 |] 


LOANS N N N момо чоч 


>> y 
array([[ 0.38100971], 
[ 0.12510564], 
.0540655 ], 
.25050503], 
.13180995], 
.32953768], 

] 





[-0.35940215] 
[-0.00294618] 
[-0.23359633] 
[-0.49808591] 
>>> np.mean(y) 
-0.032300713545130311 
>>> np.mean (x) 
-0.16524661414915703 























观察 上 述 代 码 的 执行 结果 可 以 看 到 ，y 的 平均 值 为 -0.032300713545130311，x 的 平均 值 为 -0.16524661414915703，y 的 平均 值 更 趋向 于 0， 因 此 ， 我 们 预言 : y 的 总 体 分 布 要 比 x 偏 右 ， 更 趋向 于 0。 继 
续 在 Python 控制 台中 绘制 它们 在 坐标 系 中 的 分 布 ， 以 验证 这 个 预言 。 代 码 如 下 : 


>>> z-np.zeros (10) 

>>> z 

array (l -Osp бш” Oz; Osy Оу QO. бш» Oc; бу, 0l) 
>>> xx-np.array (zip(z,x));yy-np.array (zip (z,y)) 














































































































>>> XX 

array([[ O. ‚ -0.46954884], 
[ O. ‚ -0.39078561], 
[ O. ;, 0.05531789], 
[ Ü. , -0.06414516], 
[ O. r -0.00511995], 
[ O. r -0.41105398], 
[ Ü. ‚ -0.23416933], 
[ O. , 0.1369419 ], 
[ O. p -0.45076555], 
[ O. » 0.1808625 ]]) 

>>>іпрогі matplotlib.pyplot as plt 

>>> plt.xlim(-0.5, 0.5) 

(-0.5, 0.5) 

>>> plt.ylim(-0.01, 0.01) 

(-0.01, 0.01) 

>>> plot(yy[l:,0],yyl:,1], 'or') 

[«xmatplotlib.lines.Line2D object at 0x04EB44D0>] 

>>> plot(xx[:,0],xx[:,1], '*b') 

[xmatplotlib.lines.Line2D object at 0x04CE2810»] 

>>> 


x 用 星 号 表示 ，y 用 实心 圆圈 表示 ， 绘 制图 形 如 图 8-21 所 示 。 从 图 8-21 所 示 的 效果 图 可 以 看 出 ， 星 号 表示 的 数据 比 实心 圆圈 表示 的 数据 整体 更 偏 左 ， 更 偏向 X 轴 的 负 方 向 ， 这 个 趋势 证 实 了 我 们 刚才 的 预 
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标准 差 是 一 组 数据 平均 值 分 散 程度 的 一 种 度量 方式 ， 其 计算 公式 为 : 





其 中 ，b 为 平均 值 。 


较 大 的 标准 差 ， 代 表 大 部 分 数值 和 其 平均 值 之 间 差 异 较 大 ; 较 小 的 标准 差 ， 代 表 这 些 数 值 较 接近 平均 值 。 
2. 方 差 


标准 差 的 平方 就 是 方差 ， 其 计算 公式 为 : 


o^ — Y. (x, 一 
N 


其 中 ，H 为 平均 值 。 
方差 与 标准 差 的 统计 意义 差不多 ， 都 是 反映 数据 平均 值 分 散 程度 。 
3.Python 实 现 


下 面 用 Python 来 实现 标准 差 和 方差 的 计算 。 在 Python 控制 台 操作 ， 随 机 生成 一 组 x 和 y 值 ，y 是 均匀 分 布 ，x 是 高 斯 分 布 。 代 码 如 下 : 





>>> y = np.random.rand (100) 
>>> x = np.random.normal(0.5, 0.00001, 100) 
»»»import matplotlib.pyplot as plt 





观察 x 的 分 布 趋势 ， 如 下 所 示 : 


>>> z-np.zeros (100) 
>>> xx-np.array (zip (x,z)) 


>>> plot (xx[: ‚0], хх» ) 
[«matplotlib. [i ines.Li ne2b object at 0x04EO06BF0»] 

















Щщ 


x 的 分 布 如 图 8-22 所 示 ， 数 据点 在 X 轴 上 分 布 不 均匀 ， 主 要 点 集中 在 0.5 附 近 (图 8-22 的 基 值 是 4.9997e-1) ， 人 少量 点 散布 在 两 边 ， 这 是 预料 之 中 的 。 


x 是 高 斯 分 布 ， 随 机 生成 x 时 ， 指 定 了 参数 为 : 平均 值 0.5， 最 大 标准 差 为 0.00001。 高 斯 分 布 就 是 正 态 分 布 ， 具 有 集中 性 的 特点 ， 即 : 正 态 曲线 的 高 峰 位 于 正中 央 ， 即 平均 值 所 在 的 位 置 ， 如 果 是 一 维 空 


， 则 集中 在 X 轴 中 平均 值 附近 。 


观察 y 的 分 布 趋势 ， 如 下 所 示 : 





>>> z-np.z zeros (100) 

>>> yy-np.array (zip(y,z)) 

>>> plot (yy[:,O0], yy [:, 1], '*b') 

[xmatplotlib. li ines.Li ne2b object at 0x04EO6BF0»] 

















从 分 布 图 8-23 来 看 ，y 均 匀 分 布 在 X 轴 上 ， 没 出 现 大 量 数据 点 聚集 的 情况 。 
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图 8-22 ”数据 点 分 布 
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图 8-23 ”数据 点 分 布 ( 附 彩 图 ) 


现在 分 别 求 出 x 和 y 的 平均 值 、 方 差 与 标准 差 。 


>>> np.mean (х) # 平 均值 
0.50000063672402462 
>>> np.var(x)#Z Z 
9.791184624177845е-11 
>>> пр.зіа (х) МЖ Z 
9.8950414977289737е-06 
>>> пр.пеап (y)# 平 均值 
0.52212510115195176 
>>> np.std(y)##4F/ 2 
0.28755684683792165 
>>> пр.хаг (у) #7 Z 
0.082688940163367933 











y 的 平均 值 与 x 接近 ， 但 其 方差 和 标准 差 不 一 样 ，x 的 方差 和 标准 差 都 比 y 小 很 多 ， 比 x 小 很 多 ， 这 说 明 x 相 对 于 y 来 说 ， 有 更 多 的 数值 集中 在 平均 值 0.5 附 近 ， 这 就 是 方差 和 标准 差 的 统计 意义 。 
8.2.3” 贝 叶 斯 算法 
1. 贝 叶 斯 定理 

贝 叶 斯 定理 是 关于 随机 事件 A 和 B 条 件 概率 的 一 则 定理 ， 下 式 定义 了 在 事件 B 发 生 的 情况 下 事件 A 发 生 的 条 件 概 率 : 
P(B| A)P(A) 


P(A|B)- ME 


假设 {Aj 是 事件 集合 里 的 部 分 集合 ， 其 中 ，A1，A2，…，An 是 某 个 过 程 中 人 若干 可 能 的 前 提 ， 则 P(Ai) 是 对 各 前 提 条 件 出 现 可 能 性 的 事先 估计 ， 称 之 为 先 验 概率 。 如 果 在 这 个 过 程 得 到 了 结果 B， 贝 叶 斯 公式 


定义 了 P(AilB)， 它 是 对 以 B 为 前 提 下 Ai 出 现 概率 的 估计 ， 则 称 P(Ail|B) 为 后 验 概率 。 


对 于 任意 的 Aij， 贝 叶 斯 定理 用 下 式 来 表示 : 


P(B| A)P(A 
P(A|B)- B 4004) _ LA)P(A) 
v P(B | А)Р(А,) 

下 面 是 一 个 贝 叶 斯 算法 的 经 典 例子 。 


已 知 某 种 疾病 的 发 病 率 是 0.001， 即 1000 人 中 会 有 1 个 人 得 病 ， 现 有 一 种 试剂 可 以 检验 患者 是 否 得 病 ， 它 的 准确 率 是 0.99， 即 在 患者 确实 得 病 的 情况 下 ， 它 有 99% 的 可 能 呈现 阳性 。 它 的 误 报 率 是 5%， 


即 在 患者 没有 得 病 的 情况 下 ， 它 有 5% 的 可 能 呈现 阳性 。 现 有 一 个 病人 的 检验 结果 为 阳性 ， 请 问 他 确实 得 病 的 可 能 性 有 多 大 ? 


假定 A 事件 表示 得 病 ， 那 么 P(A) 为 0.001， 这 就 是 “ 先 验 概率 ”， 即 没有 做 试验 之 前 预计 的 发 病 率 ; 假定 B 事 件 表示 阳性 ， 那 么 要 计算 的 就 是 P(A|B)， 即 “后 验 概率 ”， 表 示 做 了 试验 以 后 对 发 病 率 的 估 
计 。 计 算 过 程 如 下 : 


P(B | A) 
Р(В | А)Р( А)+ P(B | А)Р(А) 
0.99 эб 
0.99x0.001+0.05x0.999 


P(A|B) - P(A) 


Р( А / B) = 0.01x 19 


` 


过 计算 ,得 知 P(A|B) 约 等 于 0.019， 即 使 检验 呈现 阳性 ， 病 人 得 病 的 概率 也 只 是 不 到 2%， 也 就 是 说 ， 呈 现 “ 假 阳性 ”， 阳 性 结果 完全 不 足以 说 明 病 人 得 病 。 


[ai 


贝 叶 斯 算法 在 机 器 学 习 中 主要 用 于 分 类 ， 其 基本 原理 是 : 已 知 样本 XX， 首 先 计算 P(X|Ci)， 得 出 C 类 别 包 含 样本 X 的 先 验 概率 ; 然后 根据 贝 叶 斯 定理 求 后 验 概率 P(CilX)， 得 到 X 属 于 C 类 别 的 后 验 概率 ; 最 后 
根据 最 大 后 验 概率 判断 所 属 类 别 |。 
2. 朴 素 贝 叶 斯 

贝 叶 斯 算法 的 基础 是 概率 推理 ， 是 在 各 种 条 件 的 存在 不 确定 、 仅 知 其 出 现 概率 的 情况 下 ， 完 成 推理 和 决策 任务 。 而 朴素 贝 叶 斯 算法 是 基于 独立 假设 的 ， 即 假设 样本 每 个 特征 与 其 他 特征 都 不 相关 。 


尽管 实际 上 独立 假设 常常 是 不 准确 的 ， 但 朴素 贝 叶 斯 分 类 器 的 若干 特性 让 其 在 实践 中 能 够 取得 令 人 惊奇 的 效果 ， 各 类 条 件 特征 之 间 的 解 耦 意 味 着 每 个 特征 的 分 布 都 可 以 独立 地 被 当 作 一 维 分 布 来 估计 ， 
减轻 了 由 于 维 数 灾 带 来 的 阻碍 ， 避 免 了 样本 规模 呈 指 数 增长 。 在 本 书 的 第 10 章 中 有 关于 朴素 贝 叶 斯 算法 的 应 用 实例 。 


朴素 贝 叶 斯 算法 通常 在 自动 分 类 中 使 用 ， 算 法 的 主要 过 程 为 : 首先 ， 计 算 待 分 类 样本 特征 的 后 验 概率 ， 然 后 使 用 最 大 似 然 比 贝 叶 斯 分 类 法 或 最 小 风险 贝 叶 斯 分 类 法 完成 分 类 。 


当 待 分 类 样本 拥有 若干 特征 变量 F1，F2，...，Fn 时 ， 该 待 分 类 样本 属于 类 C 的 后 验 概率 为 : 
] n 
p(C |F, F,) = PO] | рк | C) 
md i=] 


其 中 ， 证 据 因 子 Z 是 一 个 仪 依赖 F1，…，Fn 的 缩放 因子 ， 当 特征 变量 的 值 已 知 时 是 一 个 常数 。 
在 朴素 贝 叶 斯 算法 中 ， 后 验 概率 仅 依 赖 于 两 个 因素 : 类 先 验 概率 p(C) 和 基于 独立 假设 的 先 验 概率 p(Fi|C)。 


上 面 的 推导 结果 解决 了 待 分 类 样本 后 验 概率 的 计算 问题 ， 余 下 的 问题 是 : 既然 得 到 了 属于 每 个 类 别 的 后 验 概率 ， 如 何 知 道 待 分 类 样本 究竟 属于 哪个 类 别 呢 ? 有 两 个 方法 : 使 用 最 大 似 然 比 贝 叶 斯 分 类 法 


和 最 小 风险 贝 叶 斯 分 类 法 。 


目前 普遍 使 用 的 是 最 大 似 然 比 贝 叶 斯 分 类 方法 ， 即 : 选 出 最 有 可 能 的 那个 ， 将 待 分 类 样本 划 归 到 后 验 概率 最 大 的 那 一 类 中 ， 也 称 为 最 大 后 验 概率 (MAP) 决策 准则 。 当 采取 最 大 后 验 概率 决策 时 ， 相 应 
的 分 类 器 公式 定义 如 下 : 


n 
classify(f1,…, /,) = аге тах p(C =с)] [PC = f,| C =c) 
E i-l 
为 了 便于 理解 ， 去 除 这 些 繁杂 的 数学 符号 ， 将 最 终 的 分 类 器 定义 为 : 
样本 所 属 类 别 =arg max(P( 类 型 )X 样 本 每 个 单独 属性 先 验 概 率 的 累 乘 ) 
其 中 ，argmax 表 示 选 择 最 大 概率 的 类 别 为 最 终 类 别 ，P (类 别 ) 为 类 别 先 验 概率 ， 是 指 该 类 别 本 身 的 可 能 性 有 多 少 。 


朴素 贝 叶 斯 虽然 是 基于 独立 假设 的 ， 但 实践 证 明 这 种 方法 确实 很 有 效 。 创 建 了 Viaweb (1998 年 ，Viaweb 成 为 最 流行 的 电子 商务 软件 ， 被 雅虎 收购 ， 改 称 雅 虎 商店 ) 的 美国 著名 程序 员 Paul Graham 提 
出 使 用 朴素 贝 叶 斯 识别 垃圾 邮件 的 方法 ， 它 通过 使 用 字 词 等 标记 与 垃圾 邮件 、 非 垃圾 邮件 的 关联 ， 计 算 一 封 邮 件 为 垃圾 邮件 的 可 能 性 ， 以 实现 对 垃圾 邮件 的 判别 。 有 兴趣 的 读者 可 以 查阅 下 面 网 址 : 


http://www.paulgraham.com/spam.html 

一 个 有 趣 的 例子 如 下 : 假设 有 一 台 智 能 机 器 ， 负 责 将 一 堆 未 知 水 果 分 为 3 类 : 苹果 、 桂 圆 、 香 燕 。 已 知 ， 这 一 堆 水 果 中 ， 苹 果 的 数量 约 占 60%， 桂 圆 的 数量 约 占 35%， 和 香蕉 的 数量 约 占 5%。 
现在 需要 一 位 工程 师 为 这 台 机 器 设计 一 个 机 器 学 习 算法 ， 这 位 工程 师 选 择 了 朴素 贝 叶 斯 分 类 算法 ， 将 算法 过 程 定义 为 如 下 形式 : 

首先 ， 计 算 P (类 别 ) 。 

P(3XEX)-0.6, P(4£1])-0.35, Р(Җ-Ж)=0.05 


Aa, Bls] ses. TEE]. АА, MRES, WE, HOA, GRENAR, BUE, BIDS, WSBUKAUKSIR. MRR S — УСАК НЕ. (用 人 类 的 “智能 ”， 识 别 出 这 
是 一 个 香蕉 ,但 机 器 识别 出 来 不 容易 ， 目 前 人 工 智能 水 平 远 没 达到 期 望 的 水 平 ) ， 如 图 8-24 所 示 。 
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机 器 要 做 的 识别 过 程 是 : 

1) 提取 这 个 未 知 样本 的 特征 : 重量 、 颜 色 、 形 状 。 重 量 测量 使 用 称 重 仪器 ， 颜 色 靠 色 敏 元 件 ， 形 状 使 用 图 像 识 别 算法 。 
2) 从 存储 器 中 取出 事先 计算 好 的 重量 、 颜 色 、 形 状 的 先 验 概率 ， 设 这 个 未 知 水 果 的 重量 、 颜 色 、 形 状 特征 值 为 81、a2、a3， 它 们 各 自 的 先 验 概率 为 : 
Р(а|| ЖЖ) =0.6, Pa| ж) 70.4, P(as| 3E )—0.001 
P(ai | 桂圆 ) =0.001, Р(а, | 8)=0.9, P(a4| 45 )=0.001 
P(a,| 香蕉) =0.6, Pa| #4Ë)=0.9, Pa| 4-3£)—0.95 
其 中 ，a= 重 量 ，a2= 颜 色 ，a3= 形 状 。 

3) 计算 后 验 概率 。 

设 这 个 未 知 水 果 为 x， 计 算 x 属 于 每 个 类 别 的 概率 。 

P( 苹 果 | 习 =P( 苹 果 1al，a2，3a5) 

-PQF Ж) X (P(a | E) X P(a5| Ж) X P(as | ERO 
—0.6 X (0.6 X 0.4 X 0.001) 

=0.6 X 0.00024 

—0.000144 

PR [х)=Р( Й |а, а, аз) 

=Р(Ж BI) X (P(a | E 0) X P(a5 |+) XPlas| 桂 圆 ) 
=0.35 X (0.001 X 0.9 x 0.001) 

—0.000000315 

PE |х)=Р(4-Ж |а, а, аз) 

=P(§ K) X (P(a | #4) X P(a5| EE) XPa ER) 
=0.05 X (0.6 X 0.9 x 0.95) 


—0.02565 


4) 寻找 最 大 后 验 概率 得 到 所 属 类 别 ， 假 设 所 属 类 别 为 C。 
P(C|x) =агртах(Р(З# Ж |х), PGE] |х), PRIX 

= аготпах(0.000144, 0.000000315, 0.02565) 

ЗАМЕН, 0.025652 АХ, [С=. 

5) УКЕН, 


在 本 书 的 12.3 节 将 进一步 讲解 贝 叶 斯 算法 。 


8.3 ЕБЕ 


以 R 表 示 实 数 域 。 对 任意 一 个 正 整数 n， 实 数 的 n 元 组 的 全 体 构 成 了 R 上 的 一 个 n 维 向 量 空间 ， 用 R 来 表示 ， 也 称 之 为 实数 坐标 空间 。R- 中 的 元 素 写 作 X= (x1，x2，…，xn)， 这 里 的 xi 都 是 实数 。 


欧 氏 学 数 定义 R" 上 的 距离 函数 (或 称 度量 ) : 


d(x, y) =|| x— y |= 





2: (x, Ша? / y 
i-l 


这 个 距离 函数 称 为 欧 几 里 得 度量 ， 也 称 欧 氏 距离 。 欧 氏 距 离 通常 用 于 衡量 两 个 点 之 间 的 距离 ， 这 两 个 点 可 以 是 定义 在 二 维 空间 的 ， 也 可 以 是 定义 在 三 维 空间 或 者 n 维 空间 的 。 
2. 计 算 实例 


假设 在 二 维 空间 中 ， 已 定义 两 个 点 ; (3, 8) 和 (2, 5) ， 其 欧 氏 距离 如 下 : 


d= 





(3-2) (8-S) =3.1623 


经 过 计算 ， 该 距离 为 3.1623， 两 点 在 空间 的 表示 如 图 8-25 所 示 。 该 距离 为 直线 的 长 度 。 


ә Q + 





图 8-25 ”二 维 空间 中 两 点 的 距离 


假设 有 两 点 : (2, 5, 7) 和 (3, 8, 2) ， 它 们 在 三 维 空间 的 欧 氏 距离 定义 为 : 





经 过 计算 ， 该 距离 为 5.9161， 如 图 8-26 所 示 ， 该 距离 为 直线 的 长 度 。 
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图 8-26 ”三 维 空间 中 两 点 的 距离 


n 维 欧 氏 空间 是 一 个 点 集 ， 它 的 每 个 点 X 可 以 表示 为 《x[1]，x[2]，.…，x[n]) ， 其 中 x[ili=1，2，.…，m) 是 实数 ， 称 为 X 的 第 i 个 坐标 ， 两 个 点 A=(a[1]，a[2]，.…，afn]) 和 B=(b[1]，b[2]，.…，b[n]) 之 间 的 


距离 d(A，B) 计 算 方 式 如 下 : 


84 ”余弦 相似 度 


1. 数 学 原理 


1) 向 量 。 空 间 中 有 两 个 点 A 和 B，A->B 就 是 一 个 向 量 ， 可 以 读 成 从 A 到 B。 它 既 有 大 小 又 有 方向 ， 设 原点 是 O， 给 定 空 间 中 任意 一 点 A，OA 是 从 O 到 A 的 向 量 。 如 图 8-27 所 示 就 是 一 个 定义 在 三 维 空间 上 


的 向 量 OA。 





图 8-27 mx 


2) A (AFR) 。 对 任意 两 个 向 量 x、y， 点 积 (x, y) (xy) 定 义 为 : 
< X, y >= X х,у, = ху + X, Te + X, Y, 
i-l 


R'" 中 的 两 个 向 量 通过 点 积 的 方式 映射 成 一 个 实数 值 ，R'" 及 其 点 积 称 为 R" 上 的 欧 几 里 得 结构 ， 可 以 将 R'“ 称 为 n 维 欧 几 里 得 空间 ， 点 积 €, ) 称 为 欧 氏 点 积 。 


3) 向 量 长 度 。 向 量 X 的 长 度 定义 为 : 


g. ty ues 





上 了 式 又 称 为 R" 上 的 欧 氏 范 数 。 


4) 余弦 相似 性 。 在 欧 氏 内 积 和 欧 氏 范 数 基础 上 定义 向 量 A 和 B 之 间 的 6 余弦 相似 性 如 下 : 


У A XB, 


ИНЕ | 
Y Ax 


similarity- cos(0) = 








п 


Yay 





其 中 6 为 X 和 y 所 夹 的 内 角 。 


2. 算 法 原理 
余弦 相似 性 通过 测量 两 个 向 量 点 积 空间 夹 角 的 余弦 值 来 度量 它们 之 间 的 相似 性 。0 度 角 的 余弦 值 是 1， 而 其 他 任何 角度 的 余弦 值 都 不 大 于 1， 并 且 其 最 小 值 是 -1。 


两 个 向 量 之 间 的 角度 余弦 值 确定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 两 个 向 量 有 相同 的 指向 时 ， 余 弦 相 似 度 的 值 为 1; 两 个 向 量 夹 角 为 90" 时 ， 余 弦 相 似 度 的 值 为 0; 两 个 向 量 指向 完全 相反 的 方向 时 ， 
余弦 相似 度 的 值 为 -1。 


余弦 相似 度 通常 用 于 两 个 向 量 的 夹 角 在 90" 之 内 的 情况 ， 余 弦 相 似 度 的 值 为 0~1。 人 余弦 相似 度 可 用 在 任何 维度 的 向 量 比 较 中 ， 因 此 在 高 维 空间 中 的 应 用 非常 广泛 。 


在 实际 应 用 中 ， 通 常会 先 提取 两 个 数据 的 特征 ， 每 个 数据 各 形成 一 个 n 维 向 量 ， 然 后 通过 计算 这 两 个 向 量 的 余弦 相似 度 来 判定 这 两 个 向 量 是 否 是 同一 类 型 。 例 如 : 文本 分 类 、 图 像 识别 等 都 能 使 用 余弦 相 
似 度 算法 。 


设 定 一 个 常数 C (0<C<1) ，OA 与 OB 之 间 形 成 了 夹 角 a， 余 弦 相 似 度 如 果 大 于 C， 就 认为 OA 与 OB 属 于 同一 类 ， 如 图 8-28 所 示 。 


а 


Q7 A A A a S: 


x 


图 8-28 余弦 相似 度 


85 SVM 


1992~1995 年 ，Vapnik 等 在 SLT 的 基础 上 发 展 了 SVM 算 法 。 它 在 解决 小 样本 、 非 线性 及 高 维 模式 识别 问题 中 都 表现 出 了 许多 特有 的 优势 ， 目 前 已 经 成 为 与 神经 网 络 地 位 齐名 的 算法 ， 在 样本 量 较 小 的 情 
况 下 ， 其 实际 运用 效果 甚至 超过 了 神经 网 络 。 


8.5.1 ”数学 原理 


SVM 中 文 名 为 支持 向 量 机 ， 英 文 全 称 为 Support Vector Machine， 是 一 种 监督 式 学 习 的 方法 。 它 拥有 坚实 的 数学 基础 ， 数 学 原理 较 复杂 ， 涉 及 的 数学 知识 很 多 ， 如 果 将 其 相关 理论 以 及 推导 完全 展开 
来 ， 能 写成 一 本 超过 300 页 的 书 。 因 此 ， 这 里 仅 简单 介绍 SVM 的 基本 原理 。 


1. 算 法 策略 


SVM 首先 将 向 量 映射 到 一 个 更 高 维 的 空间 里 ， 在 其 中 建立 最 大 间隔 超 平面 ， 将 数据 分 开 ; 然后 ， 在 超 平面 两 边 再 设立 两 个 互相 平行 的 超 平面 ; 最 后 分 隔 超 平面 ， 使 两 个 平行 超 平面 的 距离 最 大 化 。SVM 
假定 平行 超 平面 间 的 距离 或 差距 越 大 ， 分 类 器 的 总 误差 越 小 。 


ч 
ч 





98-29 ” 超 平 面 


2. 超 平面 
超 平面 的 数学 形式 可 以 写作 : 
w * x-b=0 
其 中 x 是 超 平面 上 的 点 ，w 是 垂直 于 超 平面 的 向 量 。 
由 图 8-29 可 知 ， 平 行 超 平面 可 表示 为 以 下 两 个 方程 : 
w: x-b=1 
w + x-b=-1 
其 中 ，w 为 超 平面 的 法 向 量 ， 是 一 个 变量 。 
如 果 数 据 是 线性 可 分 的 ， 可 找到 两 个 超 平面 ， 在 它们 之 间 没 有 任何 样本 点 ， 并 且 这 两 个 超 平面 之 间 的 距离 也 最 大 。 


这 两 个 超 平面 之 间 的 距离 是 2/|w|， 因 此 需要 最 小 化 |w|， 因 为 这 两 个 超 平面 之 间 没 有 任何 样本 点 ， 所 以 xi 还 需要 满足 以 下 两 个 条 件 中 的 一 个 : 


把 上 面 两 个 式 子 合 写 ， 将 变 成 : 
C(w-xb)»-1, 1<і<а 
3. 二 次 规划 最 优化 
二 次 规划 问题 可 以 用 以 下 形式 来 描述 。 
1) 函数 fCo0 定 义 为 : 
ffg=(1/2)xIQx+cIx 
其 中 ,x 是 x 的 转 置 。 
2) 国 数 受到 一 个 或 更 多 如 下 形式 的 限制 条 件 : 
Ax«b 


Ex=d 


如 果 Q 是 半 正 定 和 矩阵 ， 那 么 foo0 是 一 个 凸 国 数 。 如 果 有 至 少 一 个 向 量 x 满 足 约束 而 且 f(x) 在 可 行 域 有 下 界 ， 二 次 规划 问题 就 有 一 个 全 局 最 小 值 x。 如 果 Q 是 正定 和 矩阵， 那么 全 局 最 小 值 就 是 唯一 的 。 如 果 


Q=0， 二 次 规划 问题 就 变 成 线性 规划 问题 。 


minimize: W(a)— -一 +С Ў, Š 


subject to y,(w'x-+b) > 1-&,Vi 


Єт ze Vi 


这 也 是 一 个 二 次 凸 规划 问题 。 


根据 优化 理论 ， 一 个 点 x 成 为 全 局 最 小 值 的 必要 条 件 是 满足 Karush-Kuhn-Tucker (ККТ) 条 件 ， 当 f(x) 是 凸 函 数 时 ，KKT 条 件 也 是 充分 条 件 。 因 此 通过 拉 格 朗 日 变换 以 及 KKT 定 理 推导 ， 


化 问题 转变 为 : 
- l 
maximize : W (æ) = >a “52 GG, y, xx, 
i ij 
subject to 0 a, «C, ау, = 0 
i 


然后 引入 核 函数 ， 最 后 的 目标 函数 为 : 
] 


52, 2.0.0, Y, K (x, xj) 


H 
maximize : W (æ) = У а, — 
i-l i=] j=l 


subject to : У ау, = 0,0О<о< С, Vi 


i=] 


改写 为 矩阵 相 乘 的 格式 ， 得 到 : 
e ` 1 T T 
minimize: f (а) -—a Qa—ea 
2 
= EL. __ a om 
subject to y a=0 0 < a; < C,-1,-4 

最 终 的 目标 变 成 了 : 通过 训练 样本 寻找 ca， 使 得 下 式 最 小 : 

] {| Т 

一 0 Qa—ea 

A 
核 国 数 可 以 是 线性 的 或 非 线 性 的 ， 线 性 核 函 数 仪 能 完成 线性 分 类 ， 而 非 线 性 核 国 数 既 可 以 完成 线性 分 类 ， 也 可 以 完成 非 线性 分 类 。 


8.5.2 ”SMO 算法 


二 次 凸 规 划 最 优 


SMO (最 小 贯 序列 方法 ) 是 改进 的 SVM 训练 算法 ， 同 其 他 SVM 训练 算法 一 样 ，SMO 会 将 一 个 大 的 QP 问 题 分 解 为 一 系列 小 的 QP 问 题 。 与 其 他 算法 不 一 样 的 是 ，SMO 处 理 的 是 规模 最 小 的 QP 问 题 ， 


此 能 够 快速 解决 并 获得 解析 解 ， 而 且 能 够 有 效 地 改善 空间 和 时 间 复 杂 度 。 


SMO 基 本 原理 是 : 每 次 仅 选 择 两 个 元 素 共同 优化 ， 在 其 他 参数 固定 的 前 提 下 ， 找 到 这 两 个 参数 的 最 优 值 ， 并 更 新 相应 的 a 向 量 ， 而 这 两 个 点 乘 子 的 优化 可 以 获得 解析 解 。 


8.5.3 ”算法 应 用 


SVM 算法 的 数学 原理 较 难 懂 ， 推 导 过 程 复杂 ， 掌 握 SVM 算 法 的 关键 在 于 动手 实践 。 通 过 编写 代码 ， 运 用 SVM 算法 解决 机 器 学 习 问题 才能 真正 理解 它 。mlpy 库 提供 了 SVM 算法 的 相关 函数 ， 本 节 将 以 
mlpy 库 为 例 进行 阐述 ， 请 按 第 2 章 的 指导 安装 mlpy 库 。 


1. 核 函数 
mlpy 的 SVM 算法 库 提 供 以 下 核 函 数 。 
线性 核 函 数 通 常 表现 为 直线 方程 ， 消 数 名 为 linear。 
非 线 性 核 函数 如 下 : 


1) 多 项 式 函 数 ， 函 数 名 为 poly。 


3) sigmoid 函 数 ， 函 数 名 为 sgmoid。 
2. 线 性 分 类 
下 面 使 用 线性 核 作 为 SVM 的 核 肖 数 ， 对 下 面 的 数据 进行 分 类 。 


r 11,15], 13,35],13,35],14,40],17,80],16,49]] 
0,1] 








创建 SVM 类 的 实例 ， 并 使 用 learn 方 法 训练 SVM。 


x-np.array (x) 
y-np.array (у) 

svm = mlpy.LibSvm() 
svm.learn(x, y) 


使 用 pred 方 法 对 未 知 数据 进行 分 类 。 代 码 如 下 : 


ty=svm.pred (tlp x[ii]) 


完整 的 Python 代 码 如 下 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 
#email:myhaspl@qq.com 
#author: Xf 

#8-14.py 

import numpy as np 

import matplotlib.pyplot as plt 





























import mlpy 
print 'loading http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
x = [[1,8], [3,20], [1,15] , [3, 351, [5, 351, [4,40], [7,80], [6, 49] ] 


y-[1,1,0,0,1,0,0,1] 
showpoint-['ro','r*'] 
tshowpoint-['bo','b*'] 
x-np.array (x) 
y-np.array (y) 

svm = mlpy.LibSvm() 
svm.learn(x, y) 

lp xl = x[:,0] 




















np.min(lp x1)-1, np.max(lp х1) +1 
np.min(lp x2)-1, np.max (lp x2)+] 






























































+00000 





for ii іп xrange (0, Len (X) ) : 
ty-svm.pred (x[ii]) 

if ty»0: 

plt.plot(lp х1[11], lp x2[ii], showpoint [int (ty)]) 

else: 















































plt.plot(lp х1[11], lp x2[ii], showpoint [int (ty)]) 
未 知 样本 分 类 
lp xl-np.random.rand (50) * (xmax-xmin) +xmin 
lp x2=np. random. rand (50) * (ymax-ymin) +хтіп 
lp x=np.array (zip (tlp xl,tlp x2)) 
for іі in xrange (0, len (tlp x)): 

ty=svm.pred (tlp x[ii]) 

if ty»0: 
plt.plot(tlp xl[ii],tlp x2[ii], tshowpoint [int (ty)]) 
else: 
plt.plot(tlp xl[ii],tlp x2[ii], tshowpoint [int (ty)]) 
plt.show() 
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上 述 代码 中 ， 随 机 生成 了 50 个 数据 作为 待 分 类 未 知 样本 。 如 图 8-30 所 示 是 程序 生成 的 分 类 散 点 图 ， 实 心 圆圈 和 星 号 分 别 代表 两 类 数据 。 运 行程 序 后 ， 将 出 现 图 8-30 的 彩 图 ， 其 中 红色 的 是 样本 数据 ， 蓝 
色 的 是 测试 数据 。 从 图 上 能 直观 看 到 ， 从 图 上 能 直观 看 到 ， 分 类 很 成 功 。 
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图 8-30 2 XC A 


3. 非 线性 分 类 
非 线性 分 类 需要 选择 非 线性 核 函 数 ， 这 里 选择 poly 作 为 SVM 的 核 函 数 。 党 试 将 分 属于 下 面 两 个 国 数 的 坐标 点 分 开 : 
第 一 类 : y=x^a+b (а<=2, abs(b)«10) 
第 二 类 : y=x^a+b (a>=3, abs(b)«10) 


1) 设置 样本 数据 。 代 码 如 下 : 








[5,130], [4,13], [5,29], [5,135], [4, 68], [10,1000], [8,520], [7, 340], [6,401], [10,1501] 








he 
Il 
一 
La 
` 
` 








2) 设置 SVM 的 核 函 数 ， 进 行 训练 。 


x-np.array (x) 

у=пр.аггау (у) 

svm = mlpy.LibSvm(svm type-'c svc', kernel type-'poly', дапта=10) 
svm.learn(x, y) 





3) 随机 产生 待 分 类 数据 ， 进 行 测试 。 代 码 如 下 : 








p х10=пр.гапаот. гапа (100) * (xmax-xmin)+xmin 
p x20-tlp x10**3+np. random. гапа (100) *20-10 
| x11=np. random. гапа (100) * (xmax-xmin)-xmin 
tlp x11**2+np.random. гапа (100) *20-10 
np.random. rand (50) * (xmax-xmin)-xmin 

tlp x30** (round (пр.гапаотм. гапа () *6,0) +3) +пр.гапаотм. гапа (50) *10-5 
np.random. rand (50) * (xmax-xmin)-xmin 

p x4l-tlp x30** (round (np.random.rand(),0)-*1)-*np.random.rand(50)*10-5 
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如 图 8-31 所 示 是 程序 生成 的 散 点 图 ， 实 心 圆圈 和 星 号 分 别 代表 不 同类 的 数据 。 数 据点 被 成 功 划分 为 两 类 : 图 的 左上 部 呈现 递增 曲线 趋势 的 数据 点 划分 到 了 第 2 类 函数 ， 其 余 被 划分 到 第 1 类 。 





88-51 分 类 散 点 图 


完整 的 Python 代码 如 下 : 


f!/usr/bin/env python 
f-*- coding: utf-8 -*- 
#email:myhaspl@qq.com 
author: 23% 

#8-15.py 

import numpy as np 





























import matplotlib.pyplot as plt 

import mlpy 

print 'loading http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
x = [[1,1], [2,4], [3,12], [9,70], [5,130], [4,13], [5,29], [5,135], [4,65], [10,1000], [8,520], [7, 340], [6,40], [10, 150]] 

у= [1,1,1,1,0,1,1,0,0,0,0,0,1,1] 








showpoint-['ro','r*'] 

tshowpoint-['bo','b*'] 

x-np.array (x) 

y-np.array (y) 

svm = mlpy.LibSvm(svm type-'c svc', kernel type-'poly', garmma-50) 
svm.learn(x, y) 

lp x1 = x[:,0] 














xmin, xmax = np.min(lp x1)-0.5, np.max(lp х1)+0.5 
= np.min(lp x2)-0.5, np.max(lp x2)+0.5 









































h 3e'O 0000, 





for ii in xrange(0,len(x)): 
ty-svm.pred (x[ii]) 

if ty»0: 

plt.plot(lp х1[11], lp x2[ii], showpoint [int (ty)]) 

























































































else: 
plt.plot(lp х1[11], lp x2[ii], showpoint [int (ty)]) 

# 未 知 样本 分 类 
tlp x10=np. random. rand (100) * (хтах-хтіп) +хтіп 
tlp x20-tlp x10**3+np.random.rand(100)*20-10 
tlp x11=np.random. rand (100) * (xmax-xmin)+xmin 
tlp x21-tlp x11**2+np.random. rand (100) *20-10 
tlp x30=np. random. rand (50) * (xmax-xmin) +xmin 
tlp x3l-tlp x30** (round (np.random.rand()*6,0)+3)+np.random. гапа (50) *10-5 
tlp x40=np. random. rand (50) * (xmax-xmin)-xmin 
tlp x4l-tlp x30** (round (np.random.rand(),0)+1)+np.random. гапа (50) *10-5 

















tlp x10.tolist()*tlp x11.tolist ()+tlp x30.tolist () +01р x40.tolist () 
lp x2=tlp x20.tolist()*tlp x21.tolist()+tlp x3l.tolist()*tlp x41.tolist () 


lp x=np.array (zip (tlp xl,tlp x2)) 
for ii in xrange (0, len (tlp x)): 
ty=svm.pred (tlp x[ii]) 
if ty»0: 
plt.plot (tlp xl[ii],tlp x2[ii], tshowpoint [int (ty)]) 
else: 
plt.plot(tlp xl[ii],tlp x2[ii], tshowpoint [int (ty)]) 
plt.show() 
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下 面 以 rbf 为 核 浮 数 完成 螺旋 型 空间 下 的 分 类 。 代 码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#8-16.ру 





import numpy as np 
import matplotlib.pyplot as plt 























f = np.loadtxt ("spiral.data") 

Р ЕТ 2]. ЕГ 2] 

svm = mlpy.LibSvm(svm type-'c svc', kernel type-'rbf', gamma-100) 
svm.learn(x, y) 
xmin, xmax = x[:,0].min()-0.1, x[:,0].max()-*0.1 
ymin, ymax = x[:,1].min()-0.1, x[:,1].max()*0.1 
xx, yy = np.meshgrid(np.arange (min, xmax, 0.01), np.arange (ymin, утах, 0.01)) 
xnew = np.c [xx.ravel(), yy.ravel()] 
ynew = svm.pred (xnew) . reshape (xx.shape) 
Fig = plt.figure(1) 
plt.pcolormesh (xx, yy, ynew) 
plt.scatter(x[:,0], x[:,1], c=y) 
plt.show() 



























































如 图 8-32 所 示 为 分 类 的 效果 图 。 两 类 数据 被 螺旋 形 分 界线 划分 。 
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8-32 SVM 分 类 的 效果 图 


86 回归 算法 


回归 分 析 是 统计 学 上 分 析 数 据 的 一 种 方法 ， 目 的 在 于 了 解 两 个 或 多 个 变量 间 是 否 相 关 ， 以 及 相关 的 方向 与 强度 ， 并 建立 数学 模型 ， 以 便 观 察 特定 变量 来 预测 研究 者 感 兴趣 的 变量 ， 它 建立 了 因 变 量 与 自 
变量 之 间 的 关系 模型 。 


8.6.1 线性 代数 基础 


线性 代数 是 数学 的 一 个 分 支 ， 它 的 研究 对 象 是 向 量 、 向 量 空间 (或 称 线性 空间 ) 、 线 性 变换 和 有 限 维 的 线性 方程 组 。 向 量 空间 是 现代 数学 的 一 个 重要 课题 ， 线 性 代数 广泛 地 应 用 于 抽象 代数 和 泛 函 分 析 
中 ， 并 能 通过 解析 几何 具体 表示 。 线 性 代数 在 机 器 学 习 理 论 体系 中 的 地 位 举足轻重 。 


1. 伴 随和 矩阵 


在 线性 代数 中 ， 一 个 方形 矩阵 的 伴随 矩阵 是 一 个 类 似 于 逆 和 矩阵 的 概念 。 如 果 憩 阵 可 逆 ， 那 么 它 的 逆 和 矩阵 和 它 的 伴随 矩阵 之 间 只 差 一 个 系数 。 


和 矩阵 A 的 伴随 矩阵 是 A 的 余子 矩阵 的 转 置 矩阵， 具体 定义 如 下 : 

El i=j 

` ? 

ix А=(а;)пхл, 则 dt 
0, i ] 


ВПАА*=А*А=|А|Е 


mA t -(As)-(As) 


FATE, ШАКИ БЕКЕНЕ" mut 

2 方 阵 的 行列 式 运算 
设 A、B 为 n 阶 方 阵 ， 则 |AB|=|AIIB|=|BIIA|=|BA| 
但 |A+B|=|A|+|B| 不 一 定 成 立 。 

3 .和 矩阵 与 方 阵 


1 
ар ax ... a. 


— € ы Des 简 记 为 A， 或 (aj)mxn。 若 m=n， 则 称 A 是 n 阶 矩阵 或 n 阶 方 阵 。 
4. 和 矩阵 的 基本 运算 
设 A= (ај), В= (bj) 是 两 个 mxn 和 矩阵 ， 则 mxn 和 矩 阵 C=(cb=ai+bi 称 为 矩阵 A 与 B 的 和 ， 记 为 A+B=(C。 
设 A= (aij) 是 mxn 和 矩阵 ，k 是 一 个 常数 ， 则 mxn 和 矩阵 (kaij) 称 为 数 k 与 矩阵 A 的 数 乘 ， 记 为 kA。 
ЇА= (ај) тх п, В=(Ы) пх, ЯВА тхЕВС= (с), А, d-anbijagba tai ba- 2: АЫ ВАЯР, 记 为 C=AB。 


5 ABER 


n, r(A)=n 
1, r(4)=n-1 


若 A 为 n 阶 方 阵 ， MELLE 
6. 线 性 相关 与 线性 无 关 
Qa1，Q2，..….，Qs 线 性 相关 至 少 有 一 个 向 量 可 以 用 其 余 向 量 线性 表示 。 


若 Q1，Q2，.……，Qs 线 性 无 关 ，a1，Q2，.…，Qs，PB 线 性 相关 全 b 可 以 由 Q1， wo，...，a 唯 -线性 表示 


8.6.2 最 小 二 乘法 原理 
1. 范 数 
在 向 量 空间 Rn(Cm 中 ， 设 Xx=(x1，x2，.…，xn)jT， 向 量 范 数 定义 如 下 : 


x 的 2- 范 数 或 欧 氏 范 数 计算 公式 为 : 


十.… .十 


| x | 





xil +x ET š 





FA 








x 的 1- 范 数 计算 公式 为 : 


|| x || 1=|Х1|+|х» 





eb 





Xx 的 %o 范 数 或 最 大 范 数 计算 公式 为 : 


| x ||, 7 max |х, | 
zn 


x 的 p 范 数 计算 公式 为 : 


Pa ood хы?) р 


I x [| ›=( 





хурро 








A 的 行 范 数 计算 公式 如 下 : 


Ах п 
| 4\„= шах! e = max Уа, | 


al. Jl 


A 的 列 范 数 计算 公式 如 下 : 


Аҹ 








| 4 ||, 2 тах 一 max ^ |a; 
х+0 | X || Sjen == 
A 的 2- 范 数 或 谱 范 数 计算 公式 如 下 : 
ПА - 
а= max 25 = A (4T 4) 


其 中 入 max(A1A) 为 ATA 的 最 大 特征 值 。 


2. 算 法 目标 


线性 回归 算法 通过 适合 的 参数 ， 使 遂 数 与 观测 值 之 差 的 平方 和 最 小 ， 即 : 
n 
min У (y, =) 
X 
і=] 


1) 二 元 线性 回归 。 首 先 将 线性 回归 遂 数 定义 为 如 下 形式 : 


y-xo*xit 


根据 其 算法 目标 ， 得 到 下 式 : 








] f 11 1-Х yı 
mın |1: :]|[: | 1: min | dv 
X0.X1 . . . . x Ax b 2 
] I n Xn Yn 
解 上 式 ， 得 到 如 下 形式 : 
n тт = 
Уай (t; =H; — y) 
kai wo, 
ый i ) 
Xo— y —X1Í 
pat» ` ` 
其 中 2 气 ， 为 t 值 的 算术 平均 值 。 
2) 多 元 线性 回归 。 将 多 个 不 相关 变量 t1，…，tq， 组 成 下 面 线性 函数 : 
yip, сз, tq; Xo» Xp 775, Xy-—xotxit t^ Xt 
上 了 式 可 写成 Ax=b 的 形式 ， 如 下 所 示 : 
... .""* X ` 

l fu fij fiq е yi 

l t>! ... б; »» +» [24 X1 Уә 

é X2 š 

й ° : = : 

1 Ij Vd Ij "T m . Ni 

r Xj . 


I E. ee Q. wes - 


接着 求解 目标 函数 : 








min | Ах—Ь Р „А Є Сед E С" 


其 特 解 为 A 的 广义 逆 和 矩阵 与 b 的 乘积 ， 这 同时 也 是 2- 范 数 极 小 的 解 ， 其 通 解 为 特 解 加 上 A 的 零 空 间 。 
8.6.3 线性 回归 


1. 回 归 模 型 求解 


上 节 讲 述 了 一 些 多 元 线性 回归 模型 ， 可 表示 为 Ax=b 的 形式 ， 求 解 回 归 模 型 就 是 求解 A 代表 的 参数 值 的 估计 值 ， 求 解 过 程 就 是 线性 回归 的 过 程 。 根 据 最 小 二 乘 原理 及 相关 数学 推导 ， 参 数 估 计 值 为 : 


2. 一 元 线性 回归 


B-OCxy oT 


如 果 随 机 变量 y 与 变量 x 之 间 呈 现 某 种 线性 关系， 则 y 与 x 之 间 一 元 线性 回归 模型 为 : 


ŷ=a+bx 


上 式 也 称 变量 y 对 变量 x 的 一 元 线性 回归 方程 ，a、b 称 为 回归 系数 。 


根据 前 面 讲述 的 最 小 二 乘法 原理 ， 用 Python 编码 实现 。 


f!/usr/bin/env python 

# -*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#8-17.ру 





import matplotlib.pyplot as plt 








x =[1,2,3,3,6,12,11] 
y 7[3,5,8,5, 12,26, 20] 





average x-float (sum(x))// len (x) 
average y-float (виш (у) ) /1en (y) 






























































x sub-map((lambda x:x-average x),x) 
y sub-map((lambda x:x-average y),y) 
x sub pow2-map((lambda x:x**2),x sub) 
y sub pow2=map ( (lambda x:x**2),y sub) 
x y-map((lambda x,y:x*y),x sub,y sub) 
a-float (sum(x y))/sum(x sub pow2) 
b-average y-a*average x 
plt.xlabel('X') 
plt.ylabel('Y') 
plt.plot(x, y, '*') 
plt.plot([0,15], [0*a*b, 15*а+р]) 
plt.grid() 
pit.title("(0)*x*(1)".format (a,b)) 
plt.show() 
如 图 8-33 所 示 为 程序 绘制 的 散 点 图 ， 这 些 数据 点 呈 明 显 的 线性 趋势 ， 程 序 将 它们 的 线性 趋势 绘制 成 一 条 回归 线 ， 回 归 效 果 不 错 。 
п = = 7 »! x . Ш ) U) _ 
88-33 ЖА 
3. 多 元 线性 回归 


一 元 线性 回归 是 指 将 一 个 主要 影响 因素 作为 自 变量 ， 分 析 自 变量 的 变化 如 何 引 起 因 变 量 的 变化 。 在 现实 问题 的 研究 中 ， 因 变量 的 变化 往往 受 几 个 重要 因素 的 影响 ， 此 时 就 需要 用 两 个 或 两 个 以 上 的 影响 


因素 作为 自 变量 来 解释 因 变 量 的 变化 ， 这 就 是 多 元 回归 。 


设 y 为 因 变 量 ，x1，Xx2，.…. 


，Xk 为 自 变 量 ， 并 且 自 变量 与 因 变量 之 间 为 线性 关系 时 ， 则 多 元 线性 回归 模型 为 : 


y=bo+bixi tboxot Se "bite 
根据 最 小 二 乘法 ， 使 用 Python 来 实现 这 个 回归 模型 。 代 码 如 下 : 


#!/usr/bin/env python 
4 -*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#8-18.ру 
import numpy as np 
x -np.matrix([[7,2,3], [3,7,17], [11, 3,5] ], dtype-np. f1oat64) 
y -np.matrix([28,40,44],dtype-np.float64).T 
b-(x.T*x).I*x.T*y 
print о" АЖ ME 7) (0) " . £Éormat (b) 
i-0 
cb-[] 
while 1<3: 
cb.append (b[i,0]) 
і+=1 
temp e-y-x*b 
mye-temp e.sum()/temp e.size 
e-np.matrix([mye,mye,mye]) .T 
print "y-$f*xl4$f*x24$f*x34$f"$ (cb[0],cb[1], cb[2] , mye) 


















































上 述 代 码 计算 了 参数 估计 值 ， 并 列 出 了 多 元 线性 回归 方程 。 


参数 项 矩阵 为 [[ 3.] 

[ 2.] 

[ 1.]] 
y=3.000000*x1+2.000000*x2+1.000000*x3+-0.000000 


8.6.4 ”多 元 非 线 性 回归 


如 果 自 变量 X1，X2，…，Xm 与 因 变 量 Y 皆 具有 非 线 性 关系 ， 或 者 有 的 为 非 线 性 ， 有 的 为 线性 ， 则 需要 选择 多 元 非 线 性 回归 模型 。 非 线性 回归 方程 很 难 求解 ， 通 党 把 非 线 性 回归 转化 为 线性 回归 ， 然 后 应 
用 最 小 二 乘法 求解 。 


例如 ， 非 线性 回归 方程 模型 为 : 


Х = 
X 
ust 
学 
经 过 变换 后 ， 将 其 化 为 线性 模型 。 
Y=a+bX 
然后 ， 再 用 最 小 二 乘法 求 出 参数 的 估计 值 。 最 后 经 过 适当 的 变换 ， 得 到 所 求 回归 曲线 。 
1. 一 元 三 次 回归 模型 
一 元 三 次 回归 模 为 : 
y 3 —by*-b x+) xb s 


用 Python 代码 实现 : 


#!/usr/bin/env python 

# -*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#8-19.ру 

#y=b1*x+b2* (x^2) +b3* (x^3) 

import numpy as np 

import matplotlib.pyplot as plt 

z-np.matrix([3,1.4,1.9]) .T 

myx -np.matrix([[7],[3], [91], dtype-np. f10at64) 

x = np.matrix([[myx[0,0],myx[0,0] **2,myx[0,0] **3], 
[myx[1,0],myx[1,0]**2,myx[1,0]**3], 
[myx[2,0],myx[2,0] **2,myx[2,0] **3]] 
dtype-np.float64) 


























Ó 
Ó 
FN 











y =xx*z 
b-(x.T*x).I*x.T*y 
print u" 参 数 项 矩阵 为 {0}".format (b) 
i-0 
cb-[] 
while 1<3: 
cb.append (b[i,0]) 
і+=1 
temp e-y-x*b 
mye-temp e.sum()/temp e.size 
e-np.matrix([mye,mye,mye]).T 
print "у=%Ё*х+%Ё*х^2+%Ё*х^3+%Ї"% (cb[0],cb[1],cb[2],mye) 
pltx-np.linspace (0,10,1000) 
pityecb[0]*pltx*cb[1]* (pltx**2)-*cb[2]* (pltx**3)-mye 
р] t.p] ot (myx, y, mamy 
plt.plot (pltx,plty) 
p () 






























































lt.show 


程序 运行 后 ， 计 算 参 数 估计 值 以 及 最 终 的 回归 方程 。 


参数 项 矩阵 为 [[ 3. ] 
[ 1.4] 





[ЛӘ] 
у=3.000000*х+1.400000*х^2+1.900000*х^3+0.000000 





非 线性 回归 方程 表现 为 曲线 ， 如 图 8-34 所 示 是 上 述 代码 生成 的 回归 曲线 。 


2 500 


2 000 


| 500 


| 000 


200 


2. 二 元 二 次 多 项 式 回 归 方 程 


二 元 二 次 多 项 式 回 归 方程 为 : 


2 4 б o 


98-34 ”回归 曲线 


^ 


y-atbi ‚ху+Ё»ухә+Ь›хү+ЁЬ»›х5+8, 1x22X1X2 
令 bi=b11,b2=b21,b3=b12,b4=b22,b05=b11 x22 


? 2 
A73 1 444—469 458 A 9 


这 样 上 式 即 可 化 为 以 下 五 元 一 次 线性 回归 方程 : 


$=a+b Xi +b2x2+b3X3+b4Xx4+0;5X5 


根据 推导 结果 来 看 ， 可 以 按 多 元 线性 回归 方法 计算 各 偏 回 归 系 数 ， 建 立 二 元 二 次 多 项 式 回归 方程 。 


下 面 用 Python 求解 二 元 二 次 多 项 式 回归 方程 。 





10 





#!/usr/bin/env python 

# -*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

18-20.py 
#y=b1*x1+b2* (x2^2) +03*х1*х2 
import numpy as np 
z-np.matrix([3,1.4,1.9]) .T 

myx -np.matrix([[7,3],[3,17],[1 














5]],dtype-np.float64) 
**2,myx[0,0]*myx[0, 1 


= 





x = np.matrix(|[myx[0,0] ,myx[0, 1 





[ 

[myx[1,0],myx[1,] 
[myx [2,0] ,myx[2, 1 
dtype-np.float64) 








y =x*z 
b-(x.T*x).I*x.T*y 

print о" AARE A (0) " . format (b 
i-0 








] LIN 
] **2,myx[1, 0] *myx [1, 1]]; ^ 
]**2,myx [2,0] *myx[2, 11] ], 


i= 


) 


cb-[] 
while 1<3: 
cb.append (b[i,0]) 
і+=1 
temp e-y-x*b 
mye-temp e.sum()/temp e.size 
e-np.matrix([mye,mye,mye]).T 
print "y-$f*xl4$f*x2^24T$f*xl*x2t$f"$ (cb[0],cb[1],cb[2] ,mye) 























程序 计算 回归 方程 的 参数 后 ， 列 出 回归 方程 ， 如 下 所 示 : 


参数 项 矩阵 为 [[ 3. ] 
[ 1.4] 





[ 1.9]] 
y-723.000000*x141.400000*x2^2-41.900000*x1*x24-0.000000 


8.6.5 ”上 岭 回归 方法 
只 有 正方 形 (пхп) 的 和 矩阵 (也 称 为 方 阵 ) ， 才 可 能 有 但 非 必然 有 逆 矩 阵 。 若 方 阵 A 的 逆 和 矩阵 存在 ， 则 称 A 为 非 奇异 方 阵 或 可 逆 方 阵 。 回 顾 一 下 参数 项 的 求解 公式 : 
B-OCXyYY 
这 样 就 产生 了 一 个 问题 : 如 果 奇 异 和 矩阵 或 非 方 阵 的 矩阵 不 存在 逆 矩 孟 ， 即 上 式 中 的 逆 矩 阵 不 存在 了 ， 怎 样 求解 参数 项 呢 ? 


此 外 ， 某 些 自 变 量 之 间 可 能 存在 共 线 性 ， 这 也 给 求 逆 带 来 了 麻烦 。 岭 回归 方法 可 以 解决 这 个 问题 ， 它 是 一 种 专用 于 共 线性 数据 分 析 的 有 偏 估 计 回 归 方法 ， 实 质 上 它 是 一 种 改良 的 最 小 二 乘 估计 法 ， 是 通 
过 放弃 最 小 二 乘法 的 无 偏 性 ， 以 损失 部 分 信息 、 降 低 精度 为 代价 ， 获 得 回归 系数 更 为 符合 实际 、 更 可 靠 的 回归 方法 ， 对 病态 数据 的 耐 受 性 远 远 强 于 最 小 二 乘法 。 其 基本 原理 是 : 


给 参数 项 求解 公式 中 的 X'X 部 分 加 上 正常 数 矩 阵 k| (k>0) ， 则 X'X+kI! 接 近 奇 异 的 程度 较 小 ， 如 果 X'X+kI 可 逆 ， 则 参数 的 求解 公式 变 为 : 
A - -1 Ur 
B (К)=(Х"Х+КГү X") 
其 中 k 称 为 岭 参数 。8(k) 作 为 B 的 估计 应 比 最 小 二 乘 估计 8 稳定 ， 当 k=0 时 ， 岭 回归 估计 就 是 普通 的 最 小 二 乘 估计 。 因 为 岭 参数 k 不 是 唯一 确定 的 ， 所 以 得 到 的 岭 回归 估计 外 (实际 是 对 回归 参数 B 的 估计 
值 。 
选择 一 个 适合 的 岭 参数 很 重要 ， 岭 迹 法 是 方法 之 一 。 选 择 的 原则 是 : 


` 各 回归 系数 的 岭 估 计 基 本 稳定 。 


Ы 残 差 平方 和 。 


` 取 使 方程 基本 稳定 的 最 小 KK 值 。 


8.66 DÖDA 
7168197556, 75—805, COXEXRÉBMESEJ. ТАЈ МоогеРепгоѕеђй) й, Е НЕ.Н.МоогеВодег Penrose 分 别 独 立 提 出 的 。 


一 个 与 A 的 转 置 矩阵 AT 同型 的 矩阵 X， 满 足 : AXA-A, XAX-X, ERT, WIÁBEEXJSRBEEABUUSHÉ, EERI ЕЕ, 


numpy 提 供 了 求 伪 逆 的 函数 linalg.pinv0， 可 调用 numpy 的 这 个 方法 对 一 组 数据 进行 回归 分 析 ， 这 组 数据 不 适合 用 前 面 介 绍 的 非 线 性 回归 算法 计算 。 代 码 如 下 : 


# -*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#8-21.ру 
#y=b1*x1+b2*x2+b3* (x1^2) +р4* (x2^2) *b5*x1*x2 


f!/usr/bin/env python 












































import numpy as np 

z=np.matrix([1.4,1.9,1.7,0.8,1.1]).T 

myx =np.matrix([[7,3],[3,17],[11,5]],dtype=np.float64) 

x = np.matrix([[myx[0,0],myx[0, 1], myx[0,0] **2, myx[0, 1] **2, myx [0, 0] *myx [0, 1] ] , ^ 
[myx[1,0],myx[1,1],myx[1,0]**2,myx[1,1]**2,myx [1,0] *myx[1,1]] , 
[тух [2,01] ,myx[2, 1] ,myx[2,0] **2,myx[2,1]**2,myx[2,0] *myx[2, 11] ] e N 








dtype-np.float64) 

y =xx*z 
wn-np.linalg.pinv (x.T*x) 
b-wn*x.T*y 
print u" 参 数 项 矩阵 为 {0}".format (b) 
i=0 
cb-[] 
while 1<5: 

cb.append (b[i,0]) 

і+=1 
temp e-y-x*b 
mye-temp e.sum()/temp e.size 
е=пр.таёгіх ( [туе, туе, туе]) .Т 
print "у=%Ё*х1+%Ё*х2+%Ё* (х1^2)+%Е* (x2^2)*$f*x1l*x24$f"$(cb[0],cb[1],cb[2], cb[3], cb[4] , туе) 






































程序 运行 后 ， 输 出 的 参数 矩阵 及 回归 方程 如 下 : 


参数 项 矩阵 为 [[ 1.59659657] 
[ 0.69002152] 
[ 2.01029166] 
[ 0.9820693 ] 
[ 0.4052783 ]] 
y-1.596597*x140.690022*x242.010292* (x1^2)40.982069* (x2^2) 40.405278*x1*x24-0.000000 








87 ”PCA 降 维 


PCA 主 要 用 于 数据 降 维 。 由 一 系列 特征 组 成 的 多 维 向 量 ， 其 中 某 些 元 素 本 身 没 有 区 分 性 ， 比 如 某 个 元 素 在 所 有 的 样本 中 都 相等 ， 或 者 彼此 差距 不 大 ， 那 么 这 个 元 素 本 身 就 没有 区 分 性 ， 如 果 用 它 做 特征 
来 区 分 ， 贡献 会 非常 小 。 我 们 的 目的 是 找到 那些 变化 大 的 元 素 ， 即 方差 大 的 维 ， 而 去 除 掉 那 些 变 化 不 大 的 维 。 


使 用 PCA 的 好 处 在 于 ， 可 以 对 新 求 出 的 “ 主 元 ”向 量 的 重要 性 进行 排序 。 根 据 需 要 取 前 面 最 重要 的 部 分 ， 
在 数据 较 多 的 情况 带 来 的 性 能 提高 更 明显 。 


了 原 有 数据 的 信息 ， 较 低 的 维 数 意味 着 运算 量 的 减少 ， 


PCA 通 过 将 主 成 分 分 析 的 问题 转化 为 求解 协 方差 矩阵 的 特征 值 和 特征 向 量 来 计算 。 其 目标 是 寻找 rr< m) 个 新 变量 ， 
， 它 们 可 以 在 很 大 程度 上 反映 原来 n 个 变量 的 影响 ， 并 且 这 些 新 变量 是 互 不 相关 的 ， 也 是 正 交 的 。 


性 组 合 ， 体 现 原 有 变量 的 综合 效果 ， 这 上 个 新 变量 称 为 “ 主 成 分 
以 将 数据 的 维 数 从 N 降 到 5 为 例 ，PCA 算 法 过 程 如 下 : 
1) 计算 样本 矩阵 X 协 方差 矩阵 。 
2) 计算 协 方差 矩阵 S 的 特征 向 量 e1，e2，.…，eN 及 其 特征 值 ;=1，2，.…，N。 
3) 把 特征 值 按 从 大 到 小 排序 ， 取 前 5 位 特征 值 对 应 的 特征 向 量 组 成 投影 矩阵 W。 


4) 投影 数据 到 W 组 成 的 空间 之 中 。 


将 后 面 的 维 数 省 去 ， 从 而 达到 降 维 、 简 化 模型 或 对 数据 进行 压缩 的 效果 。 同 时 最 大 程度 地 保持 


使 它们 反映 事物 的 主要 特征 ， 压 缩 原 有 数据 矩阵 的 规模 ， 每 个 新 变量 是 原 有 变量 的 线 


上 述 算法 过 程 较 抽象 ， 理 解 它 的 最 好 方式 就 是 动手 实现 它 。 下 面 编写 一 段 Python 程序 ， 使 用 mlpy 库 提供 的 PCA 类 ， 实 现 PCA 算 法 。 


#!/usr/bin/env python 

# -*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#8-22.ру 

import numpy as пр 

import matplotlib.pyplot as plt 

import mlpy 

np.random.seed(0) 

mean, cov, n = [0, 0], [[1,1],[1,1.5]], 100 

х = np.random.multivariate normal(mean, cov, n) 
pca = mlpy.PCA() 


























































































































К () 
ig = plt.figure (1) 
plotl = plt.plot(x[:, 0], x[:, 1], 'о!) 
plot2 = plt.plot([0,coeff[0, 0]], [0, coeff[1, 0]], linewidth-4, color-'r') 
plot3 = plt.plot([O,coeff[0, 1]], [0, coeff[1, 1]], linewidth-4, color-'g') 
хх = plt.xlim(-4, 4) 














yy = plt.ylim(-4, 4) 





















































plotl = plt.plot(xnew[:, 0], xnew[:, 1], '0!) 
хх = plt.xlim(-4, 4) 

yy = plt.ylim(-4, 4) 

plt.show() 





如 图 8-35 所 示 是 程序 生成 的 两 张 散 点 图 ， 左 边 是 数据 降 维 前 的 效果 ， 石 边 是 数据 降 维 后 的 效果 。 能 明显 看 出 数据 降 维 后 ， 数 据 的 整体 趋势 并 没有 改变 ， 





最 大 程度 地 保持 了 原 有 数据 的 信息 。 





图 8-35 ”数据 降 维 
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8.8.1 ”关联 规则 概述 
以 购买 商品 为 例 进行 分 析 ， 假 设 某 顾客 同时 购买 了 A 商品 和 8 商品， 然后 又 购买 了 C 商 品 ， 也 就 是 说 此 次 共 买 了 商品 {A，B，C}， 则 可 把 {A，B}、{C}、{A，B，C} 称 为 项 集 (购买 项 目的 集合 ) ， 可 以 建立 


一 条 规则 ， 同 时 买 了 A 和 B 两 种 商品 的 顾客 可 能 会 买 C 商 品 ， 记 为 {A，B}->{C}， 这 样 通过 一 定数 量 的 购买 记录 就 能 分 析出 用 户 的 购买 习惯 。 可 将 这 一 过 程 用 形式 化 语言 进行 如 下 定义 : 


项 集 | 由 若干 个 项 目 组 成 ， 事 务 t 由 若干 个 项 集 组 成 ， 事 务 集 T 由 若干 个 事务 t 组 成 ， 设 项 集 X 是 事务 tieT 的 一 个 子 集 ， 也 可 记 为 xEti,， 分 析 事 务 集 ， 在 指定 支持 度 和 置信 度 满足 的 情况 下 ， 认 为 规则 X- > Y 


成 立 (X 和 0Y 均 为 项 集 ) ， 则 称 X 为 前 件 ，Y 为 后 件 。 


支持 度 的 计算 公式 如 下 : 


LRK = 了 中 包括 了 UY 了 的 百分比 = 


其 中 n 为 事务 集 T 的 事务 数量 ，count 表 示 数 量 。 


置信 和 度 的 计算 公式 如 下 : 


count(X U Y) 
n 


置信 度 =T paj Xu 了 的 百分比 一 000) 
count(X) 


其 中 count 表 示 数 量 。 


置信 度 可 理解 为 条 件 概率 ， 即 : 在 事务 集中 ，X 项 集 存在 的 前 提 下 ， 项 集 Y 存 在 的 可 能 性 ; 支持 度 可 理解 为 事务 集 T 中 X 和 和 Y 项 集 同时 存在 的 概率 。 可 给 支持 度 和 置信 和 度 设置 一 个 阅 值 ， 若 这 两 个 指标 均 大 
于 这 个 阅 值 ， 则 可 生成 天 联 规则 。 


8.8. ”频繁 项 集 算法 
1.Apriori 算 法 


Apriori 算 法 是 一 种 挖 握 布尔 关联 规则 频繁 项 集 的 算法 ， 其 核心 是 基于 两 阶段 频 集 思 想 的 递 推 。 该 关联 规则 在 分 类 上 属于 单 维 、 单 层 、 布 尔 关 联 规则 ， 所 有 支持 度 大 于 最 小 支持 度 的 项 集 称 为 频繁 项 集 ， 
简称 频 集 。 算 法 的 目标 是 寻找 最 大 的 频繁 项 集 ， 算 法 过 程 如 下 : 


1 


М.У 


简单 统计 所 有 包含 一 个 元 素 的 项 集 出 现 的 频数 ， 并 找 出 那些 不 小 于 最 小 支持 度 的 项 集 ， 即 一 维 最 大 项 集 。 


М.У 


2) 继续 循环 处 理 直 到 再 没有 最 大 项 集 生 成 为 止 。 循 环 过程 是 : 第 k 步 中 ， 根 据 第 k-1 步 生成 的 k-1 维 最 大 项 集 产生 k 维 侯 选 项 集 ， 然 后 对 数据 库 进 行 搜索 ， 得 到 侯 选 项 集 的 项 集 支 持 度 ， 并 与 最 小 支持 度 
进行 比较 ， 从 而 找到 k 维 最 大 项 集 。 


下 面 以 一 个 例子 来 直观 说 明 算 法 的 过 程 。 假 设 有 一 个 数据 库 表 sales， 其 中 有 4 个 购买 事务 ， 如 图 8-36 所 示 。 


1) 将 最 小 支持 度 Minsup 设 定 为 2， 算 法 的 运行 过 程 如 图 8-37 所 示 。 
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图 8-36 ”数据 库 表 sales 的 购买 事务 
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18-37 Aptiori 算 法 过 程 : 设 定 最 小 支持 度 


2) 扫描 上 述 sales 表 ， 对 每 个 候选 项 进行 支持 度 计 数 ， 得 到 表 C1， 如 图 8-38 所 示 。 


3) 比较 候选 项 支持 度 计数 与 最 小 支持 度 Minsup， 产 生 1 维 最 大 项 集 L1， 如 图 8-39 所 示 。 





图 8-38 Aptioti 算 法 过 程 : 候选 项 支持 度 计 数 





图 8-39 ”Apriori 算 法 过 程 : 产生 1 维 最 大 项 集 


4) 由 L1 产 生 候 选项 集 C2， 如 图 8-40 所 示 。 


5) 扫描 sales 表 ， 对 每 个 候选 项 集 进 行 支持 度 计数 ， 如 图 8-41 所 示 。 


{11.12} 


{11.13} 


{712.13} 
{1215} 


{11,12} 
{71,131 
{11,15} 
(12 13) 


(12 15) 





18-41 Aptiori 算 法 过 程 : 2 维 候选 项 集 支 持 度 计 数 


6) 比较 候选 项 支持 度 计 数 与 最 小 支持 度 Minsup， 产 生 2 维 最 大 项 集 L2， 如 图 8-42 所 示 。 
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图 8-42 Aptiori 算 法 过 程 : 产生 2 维 最 大 项 集 


7) 由 L2 产 生 候 选项 集 C3， 如 图 8-43 所 示 。 
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图 8-43 Арпоп 21112: 产生 3 维 候选 项 集 


8) 比较 候选 项 支持 度 计 数 与 最 小 支持 度 Minsup， 产 生 3 维 最 大 项 集 L3， 如 图 8-44 所 示 。 
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图 8-44 Apion ikita: 产生 3 维 最 大 项 集 
9) 至 此 ， 算 法 终止 。 
Apriori 算 法 的 主要 缺点 如 下 : 
. 每 一 步 都 要 产生 候选 项 集 ， 循 环 产生 的 组 合 过 多 ， 没 有 排除 不 应 该 参与 组 合 的 元 素 ， 组 合 随 着 数据 库 记 录 的 增加 呈现 出 几何 级 数 的 增加 。 
` 每 次 计算 项 集 的 支持 度 时 ， 都 对 事务 集中 的 全 部 记录 进行 了 一 遍 扫 描 ， 从 而 增加 了 计算 机 系统 的 I/O 〇 开销 。 
2.FP-growth 算 法 


针对 Apriori 算 法 的 性 能 瓶颈 问题 一 一 需要 产生 大 量 的 候选 项 集 和 重复 地 扫描 数据 库 ，2000 年 Jiawei Han 等 人 提出 了 基于 FP 树 生成 频繁 项 集 的 FP-growth 算 法 。 该 算法 只 需要 进行 两 次 数据 库 扫 描 且 它 
不 必 使 用 侯 选 集 ， 直 接 将 数据 库 压 缩 成 一 棵 频繁 模式 树 ， 最 后 通过 这 棵 树 生 成 关联 规则 。 研 究 表 明 它 比 Apriori 算 法 大 约 快 一 个 数量 级 。 


FP-growth 算 法 是 一 种 不 产生 候选 模式 而 采用 频繁 模式 增长 的 方法 挖掘 频繁 模式 的 算法 。 算 法 只 需要 两 次 数据 扫描 : 
第 一 次 扫描 数据 库 ， 得 到 1 维 频繁 项 集 。 

第 二 次 扫描 数据 库 ， 利 用 1 维 频繁 项 集 过 滤 数 据 库 中 的 非 频繁 项 ， 同 时 生成 FP 树 。 

由 于 FP 树 欧 肖 了 所 有 的 频繁 项 集 ， 其 后 频繁 项 集 的 挖掘 只 需要 在 FP 树 上 进行 即 可 。FP 树 挖掘 由 以 下 两 个 阶段 组 成 : 
第 一 阶段 建立 FP 树 ， 即 将 数据 库 中 的 事务 构造 成 一 棵 FP 树 。 

第 二 阶段 为 挖掘 FP 树 ， 即 针对 FP 树 挖掘 频繁 模式 和 关联 规则 。 

FP-growth 算 法 可 具体 描述 如 下 : 

. 输入 : 事务 数据 集 D， 最 小 支持 度 Minsup。 

. 输出 : 频繁 模式 的 完全 集 。 


具体 方法 如 下 。 


首先 ， 按 如 下 方法 构建 FP 树 。 
1) 扫描 事务 数据 库 ， 收 集 频 繁 项 集 F 并 统计 支持 度 ， 对 F 按 支持 度 降序 排序 ， 得 到 频率 排序 好 的 项 表 L。 


2) 创建 FP 树 的 根 节点 ， 用 “null” 标 记 它 。 对 于 D 中 的 每 个 事务 7， 执行 : 选择 T 中 的 频 并 按 L 中 的 顺序 排序 。 设 排序 后 的 频繁 项 表 为 [p|P]， 其 中 p 是 第 一 个 元 素 ， 而 P 是 剩余 元 素 的 表 。 调 用 
insert tree([p|P]，T)。 该 过 程 执行 情况 如 下 : 


如 果 T 有 子女 N 使 得 N.itemName=p.itemName， 则 N 的 计数 增加 1; 否则 创建 一 个 新 节点 N， 将 其 计数 设置 为 1， 链 接 到 它 的 父 节点 T， 并 且 通 过 节点 链 结构 将 其 链接 到 具有 相同 iemName 的 节点 。 如 
果 P 非 空 ， 则 递归 地 调用 insert tree(P，N)。 


其 次 ， 通 过 FP-growth(Tree，o0) 国 数 来 实现 FP 树 的 规则 ， 初 始 调用 FP-growth(Tree，nul) 的 描述 如 下 : 


if Tree4 含 单个 路 径 P then { 
for 路 径 P 中 节 节点 的 每 个 组 合 ( 记 作 ) 

产生 模式 BUm， 其 支持 度 те" 节点 的 最 小 支持 度 ; 
} 


else for each «i 在 Tree 的 头 部 do {产生 模式 B=ai U а, Ж 7 supporte«i.support; 43&097 44H X, 然后 构造 8 的 条 件 FP 树 TreeB; 
if TreeB= = then 

i4] FP growth (Tree£, 8) 

} 


end 














8.8.3 ”关联 规则 生成 
1. 关 联 规则 生成 算法 


设 { 为 一 个 频繁 项 集 ，a 为 后 件 ，f-a 为 前 件 ， 可 将 (Ға) ->a 设 为 一 条 关联 规划。 如果 (f-a) 是 关联 规则 ， 则 (f-asup) 一 asub 也 是 关联 规则 ，asub 为 a 的 某 个 非 空子 集 ， 所 有 以 asub 为 后 件 的 规则 都 成 
为 候选 关联 规则 ， 候 选 天 联 规则 在 支持 度 和 置信 和 度 都 大 于 指定 阅 值 时 ， 可 生成 关联 规则 。 


支持 度 的 计算 方式 如 下 : 
_ count( f) 
n 
其 中 ，n 为 事务 集中 事务 的 数量 。 
置信 和 度 的 计算 方式 如 下 : 
. count( f) 


C 
о 
| 


count( f-a) 


当 支 持 度 conf> 最 小 支持 度 minconf、 置 信和 度 sup> 最 小 置信 和 度 minsup 时 ， 可 生成 如 下 规则 : 


产生 频繁 项 集 后 ， 就 可 计算 关联 规则 了 ， 具 体 算 法 可 采用 如 下 方式 。 

第 一 步 ， 从 频繁 项 集 f 中 生成 1 项 后 件 的 候选 关联 规则 ， 并 从 中 挑选 conf> minconf 和 sup>minsup 的 候选 规则 作为 天 联 规则 。 

第 二 步 ， 利 用 现 有 Kk-1 项 后 件 的 关联 规则 ， 生 成 k 项 后 件 的 候选 关联 规则 ， 从 中 挑选 conf>minconf 和 sup>minsup 的 候选 规则 作为 天 联 规则 。 
2. 天 联 规则 生成 例子 


下 面 以 图 8-36 所 示 的 sales 数 据 表 中 的 频繁 项 集 为 例 ， 讲 解 如 何 使 用 最 大 频繁 项 集 L3 生 成 关联 规则 。 设 定 minconf 为 60%，minsup 为 70%， 在 此 仅 分 析 一 次 频繁 项 集 L3， 如 图 8-45 所 示 。 
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图 8-45 ”频繁 项 集 L3 
首先 ， 从 1 项 后 件 的 候选 关联 规则 开始 。 根 据 L3 生 成 以 下 候选 关联 规则 : 
(1) (I2, 13}->{15} [sup=2/4, conf=2/2] 
(2) (I2, 15}->{l3} [sup-2/4, conf-2/3] 
(3) (I3, 15}->{12} [sup-2/4, conf-2/2] 
根据 minconf 和 minsup 的 限制 ， 选 择 规则 (2) 作为 生成 规则 H1， 如 下 所 示 。 
(I2, 15)-» (13) 


然后 ， 根 据 H1， 生 成 2 项 后 件 候选 关联 规则 ， 如 下 所 示 。 


{12}->{13, 15} [sup=2/4, conf=2/3] 

上 述 候选 关联 规则 满足 minconf 和 minsup 的 要 求 ， 因 此 将 它 作 为 生成 规则 H2。 
最 后 ， 根 据 频 繁 项 集 L3 生 成 以 下 两 条 关联 规则 : 

H1:{l2，15}->{13} 


H2:(12)-» (3, 15) 


8.84 实例 分 析 


下 面 以 分 析 购 买 记录 为 例 ， 分 别 就 Apriori 算 法 和 FP-growth 算 法 讲解 频繁 项 集 和 关联 规则 。 


1.Apriori 算 法 


假设 某 超 级 市 场 的 小 吃 和 饮料 信息 如 表 8-1 所 示 。 


表 8-1 超级 市 场 的 小 吃 和 饮料 清单 













2 'Casino' 'Food' 
4 beat '"Food' 
е o 
е 
47 CNN 3.85 'Drink' 
49 Drink 
表 8-1 的 第 1 列表 示 食 品 编号 ID， 之 后 的 列 依次 是 口味 、 品 种 、 价 格 、 类 别 。 
商品 购买 记录 如 表 8-2 所 示 。 
表 8-2 小吃 和 饮料 的 购买 记录 
oh г T — 
' | í | о» | T | 
Š 


al | | — 
о | 3 | ú | = | | — 


表 8-2 中 第 一 列 为 订单 编号 ID， 以 后 各 列 依次 为 每 个 订单 所 点 的 食品 ID。 比 如 第 一 个 订单 的 记录 为 “1，7，15，44，49” ， 表 示 订 单 1 购 买 了 Coffeeekclair、a Blackberry Tart, Bottled Water 和 


Single Espresso, 


首先 ， 下 载 Apriori 程 序 包 并 解压 。 本 书 源码 包 中 附带 了 apriori.py 程 序 以 及 相关 数据 ， 也 可 以 直接 去 github.com 下 载 : https://github.com/BastinRobin/apriori-python。 本 书 源码 包 的 下 载 地 址 见 前 


II 


然后 ， 打 开 命令 行 ， 以 最 小 支持 度 3% 及 最 小 置信 度 70% 为 标准 ， 分 析 顾 客 的 食品 消费 习惯 : 


python apriori.py data/1000/1000-outl.csv .03 .7 

































































































































































运行 结果 如 下 : 
Dataset:  data/1000/1000-outl.cs MinsSup: 0.03 MinConf: 0.7 
1 š Berry Tart (14), Bottled Water (44) support= 0.034 
2 1 Strawberry Cake (4), Napoleon Cake (9) support- 0.049 
Зк: Chocolate Cake (0), Casino Cake (2) support- 0.04 
4: Raspberry Cookie (23), Lemon Lemonade (40) support- 0.031 
D: ss Marzipan Cookie (27), Tuile Cookie (28) support= 0.053 
6 : Blueberry Tart (16), Apricot Croissant (32) support= 0.04 
T3 Blueberry Tart (16), Hot Coffee (45) support= 0.033 
8 : Gongolais Cookie (22), Truffle Cake (5) support= 0.058 
Qus Cherry Tart (18), Opera Cake (3) support- 0.041 
10 Cheese Croissant (33), Orange Juice (42) support- 0.038 
T š Raspberry Cookie (23), Lemon Cookie (24) support- 0.033 
12 : Lemon Cookie (24), Lemon Lemonade (40) support- 0.031 
13 : Apricot Croissant (32), Hot Coffee (45), Blueberry Tart (16) 
support- 0.032 
14 : Apple Croissant (31), Apple Tart (12), Apple Danish (36), 
Cherry Soda (48) support- 0.031 
Skyline Itemsets: 14 
Rule А Apricot Croissant (32), Hot Coffee (45) --» Blue 
berry Tart (16) [sup= 0.032 conf- 1.0 ] 
Rule 2 : Apple Croissant (31), Apple Tart (12), Apple Danish (36) 
--» Cherry Soda (48) [sup- 0.031 conf- 0.775 ] 
Rule 3 : Apple Croissant (31), Apple Danish (36), Cherry Soda (48) 
--» Apple Tart (12) [sup= 0.031 conf- 1.0 ] 
Rule 4 : Apple Tart (12), Apple Danish (36), Cherry Soda (48) 
--» Apple Croissant (31) [sup= 0.031 conf- 1.0 ] 

















程序 的 上 半 部 分 为 频繁 项 集 ， 下 半 部 分 为 关联 规则 。 


首先 ， 观 察 这 14 个 频繁 项 集 ， 第 1 个 频繁 项 集 表明 |D 号 为 14 的 Berry Tart 经 常 和 ID 号 为 44 的 Bottled Water 被 顾客 一 起 购买 (有 0.034 的 支持 度 ) ， 而 拥有 最 大 支持 度 的 是 第 8 个 频繁 项 集 ， 即 : 
Gongolais Cookie 和 Truffle Cake 是 顾客 相对 其 他 食品 组 合 而 言 最 喜欢 一 起 购买 的 。 


然后 ， 观 察 关联 规则 ， 第 1 条 关联 规则 是 点 了 Apricot Croissant 和 Hot Coffee 的 顾客 一 般 会 来 上 一 个 Blue berry Tart， 这 条 关联 规则 的 置信 和 度 为 1.0， 说 明 顾 客 常 有 该 规则 表明 的 消费 习惯 。 而 置信 度 最 
小 (为 77.5%) 的 是 第 2 条 规则 ， 点 Apple Croissant、Apple Tart 及 Apple Danish 的 顾客 会 选择 Cherry Soda， 这 个 消费 习惯 可 能 会 成 为 这 部 分 顾客 的 选择 。 


2.FP-growth 算 法 
首先 ， 下 载 FP-growth 程 序 包 并 解压 ， 本 书 源码 包 中 提供 有 该 程序 包 ， 也 可 以 直接 在 github.com 下 载 : https://github.com/enaeseth/python-fp-growth。 该 算法 包 需 要 安装 ， 安 装 命 令 如 下 : 
python setup.py install 
然后 ， 可 直接 运行 程序 fp_growth ， 该 程序 将 自动 分 析 其 中 的 一 个 简单 的 数据 集 tsk.csv， 生 成 频繁 项 集 。 


tsk 数 据 集中 的 数据 如 表 8-3 所 示 。 


表 8-3 tsK 数 据 集 
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运行 程序 的 命令 如 下 : 





python -m fp growth -s 4 examples/tsk.csv 


程序 运行 完毕 后 ， 输 出 支持 数 support>4 的 频繁 项 集 ， 结 果 如 下 : 


fp_growth 程 序 的 调用 格式 如 下 : 








python -m fp growth -s (minimum support] (path to CSV file} 


Е, minimum support 为 最 小 支持 度 ，path to CSV file 为 数据 集 的 csv 文 件 名 。 


最 后 ， 以 某 网 上 商场 的 购买 数据 sales.csv ( 共 1000 条 记录 ， 本 书 附带 的 源码 包 中 提供 了 该 文件 ) 为 例 ， 计 算 支 持 数 (支持 数量 ) >200 的 频繁 项 集 。sales.csv 文 件 共 有 1000 条 记录 ， 记 载 了 每 笔 订单 的 
商品 ID 号 ， 内 容 如 下 所 示 。 
























































21,32,41,48--- http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 








编写 程序 8-23.py， 调 用 fp_growth 程 序 库 函 数 ， 代 人 码 如 下 : 





# -*- coding: utf-8 -*- 
#code :myhaspl@myhasp1 . com 
#8-23.py 
from fp growth import find frequent itemsets 
import csv Е Е 
myminsup=200# 设 定 最 小 支持 度 

if name == ' main ': 




































































f = open("sales.csv") 
try: 
for itemset, support in find frequent itemsets (csv.reader(f), myminsup, True): 
print '(' + ','.join(itemset) + '} ' + str (support) 
finally: 











运行 程序 ， 输 出 支持 数 >200 的 频繁 项 集 ， 结 果 如 下 所 示 : 


{9} 224 
{12} 300 

{14} 291 
{12,14} 266 
{22} 203 

{16} 274 
{12,16} 250 
{14,16} 249 
{12,14,16} 248 




















分 析 上 面 的 频繁 项 集 ，{12}300 在 1 项 组 合 中 的 支持 数 最 多 ， 表 示 很 多 顾客 都 喜欢 购买 12 号 商品 ; {12，14}266 人 在 2 项 组 合 中 的 支持 数 最 多 ， 表 示 12 和 14 号 商品 是 较 常 见 的 2 项 购买 组 合 ， 
{12，14，16}248 在 3 项 组 合 中 的 支持 数 最 多 ， 表 示 12、14 和 16 号 商品 是 较 常 见 的 3 项 购买 组 合 。 


程序 8-23.py 读 取 的 sales.csv 文 件 格式 与 在 github.com 下 载 的 fp_growth 算 法 包 所 使 用 的 CSV 文 件 格式 有 所 不 同 ， 因 此 ， 需 要 修改 一 下 源码 包 中 的 fp_growth.py， 使 之 兼容 sales.csv 和 tsk.csv 这 两 种 文 
件 的 格式 。 修 改 方式 为 : 在 fp_growth.py 文 件 的 find frequent_itemsets 函 数 中 增加 对 空 项 目的 判断 ， 代 码 如 下 所 示 : 








for transaction in transactions: 

processed - [] 

For item in transaction: 

if item.strip()!-'': 
items[item] += 1 
processed.append (item) 

processed transactions.append (processed) 




















修改 完毕 后 ， 需 要 重新 安装 fp_growth 包 ， 安 装 命令 如 下 : 


python setup.py install 


自动 分 类 是 指 由 计算 机 系统 按照 被 考察 对 象 的 内 部 或 外 部 特征 ， 根 据 一 定 的 分 类 标准 或 分 类 参考 (如 类 别 的 数量 限制 ， 同 类 对 象 的 亲近 程度 等 ) ， 将 相近 、 相 似 或 相同 特征 的 对 象 聚合 在 一 起 或 划分 到 
不 同 种 类 的 过 程 。 
891 RXRA 


Hx 


类 分 析 又 称 群 分 析 ， 它 是 研究 (样品 或 指标 ) 分 类 问题 的 一 种 统计 分 析 方 法 ， 同 时 也 是 数据 挖掘 的 一 个 重要 算法 。 它 以 相似 性 为 基础 ， 相 比 于 不 同 聚 类 的 模式 ， 同 一 聚 类 中 的 模式 之 间 具 有 更 多 的 相 
似 性 ， 聚 类 所 要 求 划分 的 类 是 未 知 的 。 聚 类 算法 应 用 相当 广泛 ， 已 经 被 广泛 用 于 考古 学 、 地 质 勘 探 调查 、 天 气 预报 、 作 物品 种 分 类 、 土 壤 分 类 、 微 生物 分 类 、 经 济 管理 、 社 会 经 济 统计 等 应 用 中 。 通 俗 地 
说 ， 聚 类 就 是 把 相似 的 对 象 通过 静态 分 类 的 方法 分 成 不 同 的 组 别 或 更 多 的 子 集 ， 让 在 同一 个 子 集中 的 成 员 对 象 都 有 一 些 相 似 的 属性 。 


1. 系 统 聚 类 


系统 聚 类 法 分 析 的 对 象 是 大 量 的 样本 ， 可 合理 地 对 所 有 样品 进行 分 类 ， 同 时 没有 任何 模式 可 供 参 考 或 依循 ， 是 在 没有 先 验 知识 的 情况 下 进行 的 。 系 统 聚 类 法 的 原理 是 : 同类 事物 具有 很 强 的 相似 性 ， 即 
同类 事物 之 间 的 距离 应 该 很 小 ， 可 用 距离 统计 量 作为 分 类 依据 。 具 体 算法 思想 如 下 : 


首先 假定 各 个 样本 各 自 成 一 类 ， 这 时 各 类 间 的 距离 就 是 各 样品 之 间 的 距离 ， 将 距离 最 近 的 两 类 合并 成 一 个 新 的 类 ; 然后 计算 新 类 与 其 他 类 间 的 距离 ， 并 将 距离 最 近 的 两 类 合并 ， 如 此 每 次 缩小 一 类 , Ei 
至 所 有 的 样本 都 成 为 一 类 为 止 ， 最 后 根据 需要 或 根据 给 出 的 距离 临界 值 (ВИА) 确定 分 类 数 及 最 终 要 分 的 类 。 其 中 的 关键 是 距离 计算 ,可 采用 如 下 距离 水 数 来 计算 : 


“ 最 短 距 离 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 最 近 样 本 间 的 距离 。 


“ 最 长 距离 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 最 远 样本 间 的 距离 。 











. 中 间距 离 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 中 间 样 本 间 的 距离 。 

"类 平均 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 样本 对 之 间 的 平均 距离 或 两 类 样本 对 之 间 平 均 距离 的 平均 值 。 

: Mcquitty 相 似 法 ， 与 类 平均 法 类 似 ， 但 在 类 平均 法 的 基础 上 增加 了 加 权 方 法 。 

“ 重心 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 重心 〈 平 均值 ) 之 间 的 距离 。 

离 差 平方 和 法 ， 如 果 分 类 正确 ， 同 类 样本 之 间 的 离 差 平方 和 应 较 小 ， 不 同样 本 之 间 的 离 差 平方 和 应 较 大 。 
下 面 以 某 类 型 的 13 种 商品 的 平均 月 销量 为 例 ， 按 销售 数量 分 级 聚 类 。 销 售 数量 如 表 8-4 所 示 。 


表 8-4 某 类 型 商品 的 销售 数量 


[oi | 3| a | 5 6] 7] s| of wf uf r 


БВК Уһсіиѕі 80478858, КЕИ: 





> рџу<-с (500, 600, 200,12,38, 59, 482,295, 260,279, 410,552, 677) 
> dim (риу) <-с (13,1) 
> buy 
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# 最 短 距 离 法 

> hclust (а, "single")->dshort 
# 最 长 距离 法 
> hclust (d,"complete")-»dlong 

# 中 间距 离 法 

> hclust (d, "median")-»dmedian 
#Mcauitty 相 似 法 

> hclust (d, "mcquitty")-»dmcquitty 
# 类 平均 法 


> hclust (а, "average") ->daverage 








> hclust (а, "centroid") ->dcentroid 
# 离 差 平方 和 法 

> hclust (d, "ward.D")-»dward 

deg xem (谱系 图 ) 

t (dshort,hang--1) 
dlong,hang--1) 
dmedian,hang--1) 
dmcquitty,hang--1 
daverage,hang--1) 
dcentroid,hang--1 
dward,hang--1) 
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上 述 代码 的 最 后 是 用 plot 函 数 绘制 所 有 聚 类 的 谱系 图 ， 如 图 8-46 至 图 8-52 所 示 。 
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图 8-46 XX 4& SE 55 iX 
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hclust(*,"complete") 
8-47 ”最 长 距离 法 


分 析 图 8-52 所 示 的 谱系 图 ， 以 离 差 平方 和 法 为 例 ， 观 察 聚 类 分 析 的 结果 : 按 这 13 种 商品 的 平均 月 销量 进行 聚 类 ，1、7、11 号 商品 归 为 一 组 ， 而 12、2、13 号 商品 为 一 组 ，4、5、6 号 商品 可 归 为 一 
组 ，3、8、9、10 号 商品 可 归 为 一 组 。 
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hclust( *," median") 


图 8-48 ”中 间距 离 法 
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图 8-49 ”Mcguitty 相 似 法 
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hclust(*," average") 


图 8-50 ”类 平均 法 
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hclust( *,"centroid") 


图 8-51 重心 法 


再 来 看 一 个 例子 ， 假 设 某 游戏 公司 打算 针对 某 游戏 服务 器 内 1 级 到 70 级 之 间 的 玩家 按 对 某 些 VIP 特殊 虚拟 商品 的 消费 能 力 进行 聚 类 ， 分 别 有 以 下 4 个 指标 。 


: x1: 


0х2: 


a eo 


: x4: 


然后 ， 


外 部 时 装 

防具 、 武 器 、 饰 品 及 相关 加 强 配料 
宠物 及 相关 加 强 配 件 

交通 工具 


将 每 10 级 玩家 设 定 为 一 个 等 级 区 (共有 7 级 ) ， 随 机 抽取 若干 个 该 等 级 区 内 的 典型 玩家 样本 ， 计 算 在 该 等 级 区 内 平均 每 人 每 月 消费 的 金额 (游戏 币 ) 作为 指标 ， 生 成 以 下 数据 样本 ， 如 表 8-5 所 


Height 


1000 1500 


00 


^ 


11 


Cluster Dendrogram 


hclust( * ,"ward.D") 


图 8-52 ”高 差 平方 和 法 
表 8-5 VIP 特殊 虚拟 商品 的 消费 


ТРЕТ 
11-20 级 (2 等 级 ) 
21-30 级 (3 等 级 ) e m [e 
31-40 级 (4 等 级 ) mim 
41-50 级 (5 等 级 ) 
51-60 级 (6 等 级 ) а | г 

-70 级 (7 等 级 ) 


下 面 用 类 平均 法 进行 系统 聚 类 分 析 ，R 语 言 代 码 如 下 : 





ebuy«-dat 
х1<-с (10,20,50, 700, 180,200,1000), 














<-с ТҮЗ 000, 120, 400) + 
+ row.names-c ("1 等 级 玩家 ", "2 等 级 玩家 "， "3 等 级 玩家 ", "4 等 级 玩家 ", "5 等 级 玩家 ", "6 等 级 玩家 ", "7 等 级 玩家 ") 
十 


е (game ebu у))- ->а 
е" 





从 图 8-53 可 以 看 出 ， 在 此 类 虚拟 商品 消费 能 力 方 面 ，1~ 50 级 是 一 大 组 ， 其 中 1~ 20 级 玩家 消费 能 力 类 似 ， 可 归 为 一 组 ; 51~ 70 级 是 另 一 大 组 ， 玩 家 以 50 级 为 一 个 明显 的 界限 。 
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hclust( *,"average") 


图 8-53 ”类 平均 法 
2.K 均 值 算法 
(1) kK 均值 算法 概述 


系统 聚 类 法 一 次 成 型 以 后 就 不 能 下 改变， 计算 量 较 大 ， 而 K 均 值 (K-means) 算法 属于 动态 聚 类 法 ， 具 有 计算 量 较 小 、 占 计算 机 内 存 较 少 和 方法 简单 的 优点 。K 均 值 算法 是 很 典型 的 基于 距离 的 聚 类 算 
法 ， 采 用 距离 作为 相似 性 的 评价 指标 ， 即 认为 两 个 对 象 的 距离 越 近 ， 其 相似 度 就 越 大 。 该 算法 认为 篮 是 由 距离 较 近 的 对 象 组 成 的 ， 因 此 将 获得 紧凑 且 独 立 的 簇 作为 最 终 目标 。 


K 均 值 算法 会 将 n 个 对 象 根据 它们 的 属性 分 为 k 个 分 割 ，k<n， 试 图 找到 数据 中 自然 聚 类 的 中 心 ， 使 各 个 样本 与 所 在 类 均值 的 误差 平方 和 达到 最 小 ， 并 以 此 为 标准 评价 K 均 值 算法 最 后 的 聚 类 效果 。k 个 初 
始 类 聚 类 中 心 点 的 选取 对 聚 类 结果 具有 较 大 的 影响 ， 因 为 该 算法 的 第 一 步 是 随机 地 选取 任意 k 个 对 象 作为 初始 聚 类 的 中 心 ， 初 始 地 代表 一 个 能。 该 算法 在 每 次 迭代 中 都 会 对 数据 集中 剩余 的 每 个 对 象 根据 其 与 
各 个 篮 中 心 的 距离 将 其 重新 赋 给 最 近 的 篮 。 当 考察 完 所 有 数据 对 象 后 ， 一 次 运 代 运 算 完 成 ， 新 的 聚 类 中 心 被 计算 出 来 。 如 果 在 一 次 迭代 前 后 ，J 的 值 没有 发 生变 化 ， 说 明 算 法 已 经 收敛 。 


K 均 值 算法 的 具体 过 程 如 下 : 

1) 从 n 个 数据 对 象 中 任意 选择 k 个 对 象 作为 初始 聚 类 的 中 心 。 

2) 根据 每 个 聚 类 对 象 的 均值 (中 心 对 象 ) ， 计 算 每 个 对 象 与 这 些 中 心 对 象 的 距离 ; 并 根据 最 小 距离 重新 对 相应 的 对 象 进行 划分 。 
3) 重新 计算 每 个 (有 变化 ) 聚 类 的 均值 (中 心 对 象 ) 。 

Д) 循环 步骤 2 和 步骤 3 直到 每 个 聚 类 不 再 发 生变 化 为 止 。 


K 均 值 算法 接受 输入 量 k; 然后 将 n 个 数据 对 象 划分 为 k 个 聚 类 ， 以 便 使 得 所 获得 的 聚 类 满足 : 同一 聚 类 中 对 象 的 相似 度 较 高 ;而 不 同 聚 类 中 对 象 的 相似 度 较 小 。 聚 类 相似 度 是 利用 各 聚 类 中 对 象 的 均值 获 
得 一 个 中 心 对 象 来 进行 计算 的 。 


(2) R 语 言 的 kmeans 聚 类 


下 面 针对 表 8-5 所 示 的 虚拟 商品 数据 ， 调 用 R 语 言 的 kmeans 函 数 进行 聚 类 : 


> kmeans (Scale (gamebuy) , 3) -»mykmean 

» mykmean 

K-means clustering with 3 clusters of sizes 3, 2,2 

Cluster means: 
xlhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/openresources/teac 









































































































































1 -0.7283260 

2 0.7529316 

3 0.3395574 
x2http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/openresources/teac 

1 -0.8042763 

2 1.3628949 

3 -0.1564805 
x3http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/openresources/teac 

i -0 . 6393938 

2 1.3215563 

3 -0.3624657 
x4http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/openresources/teac 

1 -0.68490386 

2 -0.05798272 

3 1.08533851 

Clustering vector: 

1 等 级 玩家 2 等 级 玩家 3 等 级 玩家 4 等 级 玩家 5 等 级 玩家 6 等 级 玩家 7 等 级 玩家 1 1 1 3 3 2 2 

Within cluster sum of squares by cluster: 

[1] 0.8408947 2.9328150 2.8138040 
(between SS / total SS = 72.6 $) 

Available components: 

[1] "cluster" "centers" "totss" "withinss" 

[5] "tot.withinss" "betweenss" "size" "iter" 

[9] "i fault" 

> sort (mykmeanS$cluster) 

1 等 级 玩家 2 等 级 玩家 3 等 级 玩家 6 等 级 玩家 7 等 级 玩家 4 等 级 玩家 5 等 级 玩家 1 1 1 2 2 3 3 





从 以 上 分 析 结 果 可 以 看 出 ，1、2、3 等 级 (1~30 级 ) 玩家 是 一 组 ，4、5 等 级 (31~50 级 ) 玩家 是 一 组 ，6、7 等 级 (51~70 级 ) 玩家 是 一 组 。 
(3) Python 库 milk 的 kmeans 聚 类 


再 来 看 一 个 例子 ， 某 网 站 对 用 户 随机 抽样 ， 以 抽取 用 户 每 周 登 录 的 次 数 作为 用 户 对 本 网 站 热忱 程度 的 分 类 标准 ， 共 随机 抽取 了 6 位 用 户 ， 登 录 次 数 分 别 为 : 12、24、67、90、34、120， 在 此 使 用 
Python 来 完成 这 个 任务 ， 通 过 调用 milk 库 函数 实现 K-means 分 类 ， 代 码 如 下 : 


+++ ДЕШ 5 Н} 

>>myx= np.array([12,24,67,90,34,120]) 

»»myx.shape- (6,1) 

# 建 立 k-means 分 类 器 ， 第 二 个 参数 3 表示 分 成 3 类 。 

>>1Іеагпег -milk.kmeans (myx, 3) 

»»learner 

(array([1, 1, 2, 0, 1, 0]), array([[l 105. le'[L 23.33333333], D 674 11)) 





后 一 行程 序 返 回 了 两 个 结果 ， 第 1 个 结果 是 分 类 完成 后 样本 所 属 的 类 别 ， 第 2 个 结果 是 每 个 类 别 的 重心 ， 观 察 结果 可 发 现 ， 第 1、2、5 号 用 户 属于 一 类 ， 重 心 为 105; 而 3 号 用 户 属于 第 2 类 ， 重 心 为 
23.33333333; 4、6 号 用 户 属于 第 3 类 ， 重 心 为 67。 


milk 是 一 种 可 供 Python 调 用 的 机 器 学 习 工具 包 。 在 Linux 环 境 中 ， 需 要 首先 下 载 milk， 网 址 如 下 : 
https://pypi.python.org/pypi/milk/ 


下 载 完 毕 后， 解压 并 进行 安装 ， 安 装 命令 如 下 : 


python setup.py install 


在 Windows 环 境 中 ， 可 直接 下 载 安装 包 进 行 安装 ， 下 载 时 请 选择 与 Python 版 本 对 应 的 文件 。 下 载 地 址 如 下 : 
http://www.lfd.uci.edu/~gohlke/pythonlibs/#milk 

此 外 ， 有 关 milk 的 相关 文档 和 资料 可 在 http://luispedro.org/software/milk 中 找到 。 

(4) Python 库 mlpy 的 kmeans 聚 类 


以 下 代码 (程序 8-24.py) 调用 mlpy 库 的 kmeans 函 数 对 若干 个 随机 数 进行 聚 类 ， 并 生成 效果 图 (如 图 8-54 所 示 ) 。 


#8-24.ру 
import numpy as np 

import matplotlib.pyplot as plt 
import mlpy 
np.random.seed (0 








| = 























meanl, соу1, п] [у 51y ГГ. LL,2]11, 200 # 200 points, mean= (1,5) 

xl = np.random.multivariate normal(meanl, covi, nl) 

mean2, cov2, n2 = [2.5, 2.5], [[1,0],[0,1]], 300 4 300 points, mean-(2.5,2.5) 
х2 = np.random.multivariate normal(mean2, cov2, n2) 

mean3, cov3, n3 = [5, 8], [[0.5,0],1[0,0.5]], 200 4 200 points, mean-(5,8) 

x3 = np.random.multivariate normal (mean3, cov3, n3) 

x = np.concatenate((x1l, x2, x3), axis-0) 4 concatenate the samples 
cls, means, steps = mlpy.kmeans(x, k-3, plus-True) 











Fig = plt.figure(1) 
plotl = plt.scatter(x[:,0], x[:,1], c=cls, alpha=0.75) 

plot2 = plt.scatter (means[:,0], means[:,1], c=np.unique (cls), s-128, marker='d') # plot the means 
plt.show() 
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18-54 kmeans 聚 类 效果 图 
8.9.2 决策 树 
1. 决 策 树 概述 
决策 树 是 一 个 预测 模型 ,代表 了 对 象 属性 与 对 象 值 之 间 的 一 种 映射 天 系 。 树 中 的 每 个 节点 表示 某 个 对 象 ， 而 每 个 分 叉 路 径 则 代表 某 个 可 能 的 属性 值 ， 每 个 叶 节 点 则 对 应 从 根 节点 到 该 叶 节 点 的 路 径 所 表 


示 的 对 象 的 值 。 决 策 树 仪 有 单一 输出 ， 若 欲 有 复数 输出 ， 则 可 以 建立 独立 的 决策 树 以 处 理 不 同 的 输出 。 在 数据 挖掘 中 决策 树 是 一 种 经 常 要 用 到 的 技术 ， 可 用 于 分 析 数 据 ， 同 样 也 可 用 来 预测 。 图 8-55 展 示 了 
一 个 决策 树 。 
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图 8-55 ”决策 树 


通常 来 说 ， 决 策 树 包含 以 下 三 种 类 型 的 节点 。 


` 决策 节点 : ЗАЛ EJ E ЖЖ, 
.机 会 节点 : 通常 用 圆圈 来 表示 。 
ИА: 通常 用 三 角形 来 表示 。 


前 枝 是 决策 树 停止 分 支 的 方法 之 一 ， 剪 枝 又 分 预先 剪 校 和 后 前 枝 两 种 。 预 先前 校 是 在 树 的 生长 过 程 中 设 定 一 个 指标 ， 当 达到 | 该 指标 时 就 停止 生长 ， 这 样 做 容易 产生 “视界 局 限 ”， 也 就 是 说 一 旦 停止 分 
支 ， 使 得 节点 N 成 为 叶 节点 ， 就 断绝 了 其 后 继 节点 进行 “好 ”的 分 支 操 作 的 任何 可 能 性 。 不 严格 地 说 ， 这 些 已 停止 的 分 支 会 误导 学 习 算法 ， 导 致 产生 的 树 的 不 纯度 降 差 最 大 的 地 方 过 分 靠近 根 节点 。 后 剪 枝 


中 ， 树 首先 要 充分 生长 ， 直 到 叶 节 点 都 有 最 小 的 不 纯度 值 为 止 ， 这 样 可 以 避免 “视界 局 限 ” 的 问题 。 然 后 对 所 有 相 邻 的 成 对 叶 节 点 考虑 是 否 消 去 它们 ， 如 果 消 去 能 引起 令 人 满意 的 不 纯度 增长 ， 那 么 执行 消 
去 ， 并 令 它 们 的 公共 父 节点 成 为 新 的 叶 节 点 。 


决策 树 法 的 决策 算法 如 下 : 

Т) 绘制 树 状 图 ， 根 据 已 知 条 件 排列 出 各 个 方案 和 每 一 方案 的 各 种 自然 状态 。 
2) 将 各 状态 的 概率 及 损益 值 标 于 概率 枝 上 。 

3) 计算 各 个 方案 的 期 望 值 并 将 其 标 于 与 该 方案 对 应 的 状态 节点 上 。 


4) 进行 剪 枝 ， 比 较 各 个 方案 的 期 望 值 ， 并 标 于 方案 枝 上 ， 将 最 后 所 剩 的 期 望 值 小 的 (BDS55575 369938) 方案 作为 最 佳 方案 。 


2. 决 策 树 算法 实例 


下 面 以 实例 来 说 明 决 策 树 算法 ， 首 先 从 最 简单 的 1 个 属性 的 数据 开始 。 假 设 某 游戏 公司 在 其 官网 的 某 游戏 论坛 中 随机 抽取 了 6 位 用 户 的 资料 为 样本 ， 以 玩家 平均 每 月 所 发 游戏 截图 的 数量 为 特征 ， 进 行 决 
策 树 训练 ， 训 练 好 的 决策 树 模型 可 将 其 他 玩家 分 为 热心 玩家 和 非 热心 玩家 。 这 6 位 用 户 平均 每 月 所 发 游戏 截图 的 数量 为 : 12. 24. 67. 90. 34. 120. 


首先 ， 训 练 决 策 树 ，Python 代 码 如 下 : 






































>>features = np.array([12,24,67,90,34,120]) + AHE EXCITE E S 

2»features.shape-(60,1) 

»»labels-np.array([False,False,False, True, False, True]) # 样 本 标签 ,False 为 非 热 心 玩家 ，True 为 热心 玩家 。 
>>learner=milk.supervised.tree learner() # 建 立 决 策 树 分 类 器 
»»model-learner.train(features, labels) # 样 本 数据 训练 ， 返 回 分 类 器 模型 


然后 ， 对 其 他 8 位 玩家 的 数据 进行 分 类 ，Python 代 码 如 下 : 














>>testx=np.array ([10,20, 40, 90, 33, 89, 199, 200]) # 建 立 测 试 样本 数据 ， 即 测试 玩家 所 发 游戏 截图 的 数量 
>>testx.shape= (8, 1) 

>>> model.apply([50]) # 应 用 刚才 建立 的 决策 树 分 类 模型 ， 对 某 个 测试 样本 进行 分 类 
False 

>> model.apply many (testx) # 应 用 刚才 建立 的 决策 树 分 类 模型 ， 对 成 批 测试 样本 进行 分 类 


[False, False, False, True, False, False, True, True] 








观察 最 后 两 行程 序 代 码 的 返回 结果 ， 倒 数 第 二 行 的 程序 代码 对 50 进 行 了 测试 ， 通 过 决策 树 模 型 判别 ， 发 游戏 截图 50 次 的 用 户 为 非 热 心 玩家 ， 倒 数 第 一 行程 序 代码 对 一 批 测试 样本 进行 判断 ， 其 中 发 游戏 
截图 为 90、199、200 次 的 玩家 值 返回 为 True， 表 示 这 些 用 户 为 热心 玩家 。 


接 下 来 ， 看 一 个 较 复 杂 的 例子 。 假 设 某 公司 针对 其 内 账 客户 进行 分 类 ， 通 过 随机 抽取 7 位 内 账 客户 进行 评估 ， 之 后 将 其 分 成 可 容忍 客户 和 非 容忍 客户 ， 并 以 这 些 客户 为 样本 数据 ， 尝 试 对 更 多 的 内 账 客户 
进行 决策 树 分 类 。7 位 内 账 客户 的 数据 如 表 8-6 所 示 。 


表 8-6 ЛЛК Р 69 3848 


到 目前 为 
І 
5600 
55 000 
1300 
2900 
800 
35 000 
9800 


应 用 Python 对 以 上 数据 进行 决策 树 算 法 分 类 ， 代 码 如 下 所 示 : 


>> 

х=пр.агг ау ([[5600, 58000, 1300, 2900, 800, 35000, 9800], [4,6,1,3,2,4,21, [50, 120,8,12, 
5,190, 1011) #593 

>> features=x.T 
>> features 

array ([[ 5600, 
[58000, 

[ 1300, 

[ 2900, 

[ 800, 
[35000, 

[ 9800, 

# 建 立 决 策 树 模型 

>> learner=milk.s 
>> model=learner. 
# 对 到 目前 为 止 仍 欠 款 ] 
>> model.apply([1200,3,] 
True 

# 对 到 目前 为 止 仍 
>> model.appl 
False 
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upervised.tree learner () 

train(features, labels) 
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8.9.3 AdaBoost 


AdaBoost 分 类 算法 是 一 种 迭代 分 类 


率 。 如 果 某 个 样本 点 已 经 被 准确 地 


分 类 


JJ; 
能 聚焦 于 那些 较 难 分 (更 富 信息 ) 的 样本 上 。 该 算法 的 核心 思想 如 下 : 
最 初 令 每 个 样本 的 权重 都 相等 ， 对 于 第 k 次 迭代 操作 ， 我 们 就 根据 这 些 权重 来 选取 样本 点 ， 进 而 训练 分 类 器 Ck; 然后 就 根据 这 个 分 


; 最 后 ， 更 新 过 权重 的 样本 集 被 用 于 训练 下 一 个 分 类 器 Ck+1。 整 个 训练 过 程 如 此 进 代 地 进行 下 去 。 
AdaBoost 算 法 的 具体 过 程 如 下 : 
1) 先 通过 对 N 个 训练 样本 的 学 习 得 到 第 一 个 弱 分 类 器 。 


2) 将 分 错 的 样本 和 其 他 的 新 数据 一 起 构成 一 个 新 的 N 个 的 训练 样本 ， 通 过 对 这 个 样本 的 学 习 得 


到 第 二 个 弱 分 类 器 。 


МЕ 
JJ va 


= 


3) 将 步骤 1 和 2 中 分 错 了 的 样本 加 上 其 他 的 新 样本 构成 另 一 个 新 的 N 个 的 训练 样本 ， 通 过 对 这 个 样本 的 学 习 得 到 第 三 个 弱 分 类 器 。 


4) 如 此 和夫 代 ， 最 终 经 过 提升 得 到 强 分 类 器 。 


继续 以 上 一 节 的 内 账 客 户 为 例 进行 说 明 ， 假 设 该 公司 随机 抽取 7 位 内 账 客 户 进行 评估 ， 之 后 按 信用 等 级 对 其 进行 分 类 ( 共 分 


试 对 更 多 的 内 账 客户 进行 AdaBoost 算 法 分 类 。7 位 财 账 客户 的 数据 如 表 8-7 所 示 。 


JJ Ro 


表 8-7 WEE EP 69 3848 
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算法 ， 它 会 在 每 一 轮 中 加 入 一 个 新 的 弱 分 类 器 ， 直 到 达到 某 个 预定 的 足够 小 的 错误 率 为 止 。 每 一 个 训练 样本 都 被 赋予 一 个 权重 ， 表 明 它 被 某 个 分 类 器 选 入 训练 集 的 概 
那么 在 构造 下 一 个 训练 集中 ， 它 被 选中 的 概率 就 会 被 降低 ; 相反 ， 如 果 某 个 样本 点 没有 被 准确 地 分 类 ， 那 么 它 的 权重 就 得 到 了 提高 。 


通过 这 种 方式 ，AdaBoost 方 法 


的 样本 的 权重 ， 并 降低 被 正确 分 类 的 样本 的 权 


为 3 级 ，1 级 信用 等 级 最 差 ，3 级 信用 等 级 最 好 ) 并 以 这 些 客户 为 样本 数据 ， 尝 


到 目前 为 止 仍 欠 款 ACA SS 23 


5600 


58 000 


1300 
2900 
800 


35 000 


9800 


首先 ， 建 立 分 类 器 ，Python 代 码 如 下 : 


# 导 入 相关 库 
>> import 
>> impor! 
>> impor! 


PŁ 





СТСТ F 


Eo 
分 类 器 


milk.supervised.tree 
milk.supervised.adaboost 


milk.supervised.multi 





>> weak = milk.supervised.tree.stump learner () 


22 














learner = milk.supervised.adaboost.boost learner (weak) 
>> learner = milk.supervised.multi.one against опе (learner) 
# 样 本 数据 及 样本 分 类 
>> 





x-np.array([[5600,58000,1300,2900,800,35000,9800],[4,6,1,3,2,4,2], [50, 120,8, 


12,5,190,10]1]) 

>> features-x.T 

>> labels-np.array([2,1,3,2,3,1 
>> learner.train(features, labe] 


然后 ， 对 测试 样本 进行 预测 ， 返 回信 用 等 级 ， 测 试 数据 的 第 一 个 元 素 是 到 目前 为 止 仍 欠 款 ， 第 二 个 元 素 是 从 款 笔 数 ， 第 三 个 元 素 是 到 目前 为 止 累计 拖欠 天 数 。 





分 析 以 上 结果 ， 以 model.apply([38000，15，10]) 为 例 ， 返 回 1 表示 目前 为 止 仍 欠 款 38000， 欠 款 笔 数 15 次 ， 目 前 为 止 累计 拖欠 10 天 的 信用 等 级 为 1 级 ， 信 用 等 级 最 差 。 
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8.94 ”竞争 型 神经 网 络 


‚21) 
5) 


һә 


O |) | 一 


3 


信用 等 级 


神经 生物 学 的 研究 结果 表明 : 生物 视网膜 有 许多 特定 的 细胞 ， 对 特定 的 图 形 输入 模式 比较 敏感 ， 并 使 得 大 脑 皮 层 中 的 特定 细胞 产生 较 大 的 兴奋 ， 而 与 其 相 邻 的 神经 细胞 的 兴奋 程度 则 被 抑制 。 竞 争 型 神 
经 网 络 对 此 进行 了 模拟 ， 对 于 某 一 个 输入 模式 ， 通 过 竞争 在 输出 层 中 只 激活 一 个 相应 的 输出 神经 元 ; 若 有 许多 输入 模式 ， 则 在 输出 层 中 激活 许多 个 神经 元 ， 从 而 形成 一 个 反映 输入 数据 的 “特征 图 形 ”， 可 
实现 对 输入 模式 自动 进行 分 类 。 


竞争 型 神经 网 络 一 般 是 由 输入 层 (模拟 视网膜 神经 元 ) 和 竞争 层 (模拟 大 脑 皮 层 神经 元 ， 也 叫 输出 层 ) 构成 的 两 层 网 络 ， 两 层 中 的 各 神经 元 之 间 实 现 双 向 全 连接 ， 而 且 网 络 中 没有 隐 含 屋 ， 有 时 竞争 层 


各 神经 元 之 间 还 人 存在 横向 连接 ， 对 于 某 一 输入 模式 ， 在 竞争 型 神经 网 络 中 ， 和 该 模式 最 相近 的 学 习 输 入 模式 相对 应 的 竞争 层 神经 元 将 有 最 大 的 输出 值 ， 即 以 竞争 层 获胜 神经 元 来 表示 


网 络 结构 如 图 8-56 所 示 。 


Na 长 
分 类 结 


果 。 竞 争 型 神经 








程序 8-25.py 演 示 了 竞争 型 神经 网 络 : 








图 8-56 ”竞争 型 神经 网 络 








# -*- coding: utf-8 -*- 

#8-25.ру 

import numpy as np 

import neurolab as nl 

import numpy.random as rand 

# 每 一 类 的 中 心 

centr = np.array([[0.2, 0.2], [0.4, 0.4], [0.7, 0.311) 
# 以 每 类 的 中 心 为 基础 ， 产 生 随 机 点 。 

rand norm = 0.05 * rand.randn(100, 3, 2) 

inp = np.array([centr + r for r in rand norm]) 
inp.shape - (100 * 3, 2) Е 

rand.shuffle (inp) 

# Create net with 2 inputs and 3 neurons 

net = nl.net.newc([[0.0, 1.0],[0.0, 1.01], 3) 

# 训 练 该 神经 网 络 

# train with rule: Conscience Winner Take All algoritm (CWTA) 
error = net.train (inp, epochs=200, show=20) 


















































# Plot results: 
import pylab as pl 
title('Classification Problem') 








рі. 
pi.subplot (211) 
pl.plot (error) 
pl.xlabel('Epoch number") 
pi.vlabel('error (default MAE)') 
w 

p 

p 


























= net.layers[0].np['w'] 
l.subplot (212) 
l.plot(inp[:,0], inp[:,1], '.', N 
centr[:,0], centr[:, 1] , 'yv', \ 
w[:,0], w[:,1], 'p') 
l.legend(['train samples', 'real centers', 'train centers'],loc-2) 
l.show() 














ее 


程序 8-25.py 创 建 了 3 个 神经 元 ， 接 受 2 个 输入 ， 输 出 为 3 类 。 运 行程 序 8-25.py， 输 出 结果 如 图 8-57 所 示 。 
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图 8-57 ”竞争 型 神经 网 络 分 类 
观察 图 8-57， 程 序 将 训练 用 样本 点 聚集 为 3 个 类 别 ， 其 中 ，train samples 表 示 训 | 练 样本 ，real centers 表 示 真 实 中 心 ，train centers 表 示 训 练 中心 。 


下 面 在 程序 8-25.py 的 基础 上 加 入 测试 用 的 平均 随机 分 布点 ， 检 查 其 分 类 效果 ， 如 程序 8-26.py 所 示 : 


# -*- coding: utf-8 -*- 

18-26.py 

import numpy as np 

import neurolab as nl 

import numpy.random as rand 

# 每 一 类 的 中 心 

centr = np.array([[0.2, 0.2], [0.4, 0.4], [0.7, 0.811) 

# 以 每 类 的 中 心 为 基础 ， 产 生 随机 点 。 

rand norm = 0.05 * rand.randn(100, 3, 2) 

inp = np.array([centr + г for r in rand norm]) 

inp.shape = (100 * 3, 2) 

rand.shuffle (inp) 

4 Create net with 2 inputs and 3 neurons 

net = nl.net.newc([[0.0, 1.0], [0.0, 1.011, 3) 

# 训 练 该 神经 网 络 

# train with rule: Conscience Winner Take All algoritm (CWTA) 
error = net.train (inp, epochs=200, show=20) 

# Plot results: 

import pylab as pl 

pl.title('Classification Problem') 
pi.subplot (211) 

pl.plot (error) 

p 
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l.xlabel('Epoch number') 
l.ylabel('error (default MAE)') 
w — net.layers[0].np['w'] 
# 生 成 100 个 [0,1) 之 间 的 平均 分 布 的 随机 数 
rand array=np.random.random( (100,2)) 
result-net.sim(rand array) 
plotshape-[] 
colorindex-['r','y','g'] 
for myres in result: 
іпаех=0 
for tmp in myres: 
if tmp--1: 
piotshape.append (colorindex[index]-*'p') 
break 

іпаех+=1 
l.subplot (212) 
l.plot(inp[:,0], inp[:,1], '."') 
or i in range (len (result)-1): 
pl.plot(rand array[i,0],rand array[i, 1],plotshape[i]) 
pl.show() 
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程序 8-26.py 生 成 了 100 个 [0, 1) 之 间 的 平均 分 布 的 随机 数 ， 然 后 由 训练 完成 的 神经 网 络 进行 分 类 。 运 行程 序 8-26.py， 效 果 如 图 8-58 所 示 ， 训 练 样本 点 为 蓝 色 圆 形 ， 测 试 样本 点 为 多 边 形 ， 测 试 样本 
点 的 不 同色 彩 代 表 了 被 分 为 不 同 的 类 。 此 外 ， 图 8-58 上 方 的 图 表示 误差 ， 从 误差 曲线 来 看 ， 神 经 网 络 训练 过 程 顺利 ， 呈 平滑 下 降 趋 势 。 
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设 某 网 站 的 访问 量 比较 稳定 ， 无 突出 变化 ， 以 某 周 所 有 地 区 对 该 网 站 的 访问 情况 为 例 ， 对 来 访 地 区 进行 聚 类 ， 数 据 如 表 8-8 所 示 (PV 为 总 访问 量 ，UV 为 总 访问 客 数 ，area 为 地 区 编号 ) 。 


编写 程序 8-27.py， 实 现 对 表 8-8 所 示 的 来 访 地 区 的 聚 类 ， 此 外 ， 再 增加 100 个 随机 点 ， 检 测 聚 类 效果 。 





4 -*- coding: utf-8 -*- 
#8-27.ру 
import numpy as np 
import neurolab as nl 
# 读 取 数 据 
import csv 
datacluster-[] 
file = open ("access area.csv",'r') 
file.readline|() 
reader = csv.reader(file) 
For datarow in reader: 
datacluster.append([float (datarow[1]), float (datarow[2])]) 
accessdata-np.array (datacluster) 
f Create net with 2 inputs and 7 neurons, 分 为 7 类 
net = nl.net.newc([[0.0, max(accessdata[:,0])1],[0.0, max(accessdata[:,11])11],"7) 
# 训 练 该 神经 网 络 
# train with rule: Conscience Winner Take All algoritm (CWTA) 
error = net.train(accessdata, epochs-200, show-20) 
# Plot results: 
import pylab as pl 
.title('Classification Problem!) 
. Subplot (211) 
.plot (error) 
.хІаре1 ('Еросһ number') 
.ylabel('error (default МАЕ) !) 
= net.layers[0].np['w'] 
# 生 成 100 个 平均 分 布 的 随机 数 
rand array=np.random.random( (100,2))*np.array (([max(accessdata[:,0]),max(accessdata[:,1]) ]) 
result-net.sim(rand array) 
plotshape-[] 
colorindex-['r','y','g','c ','m','k','b'] 
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for myres in result: 

index-0 

for tmp in myres: 
if tmp--1: 

plotshape.append (colorindex[index]-*'p') 

break 

іпаех+=1 

м = net.layers[0].np['w'] 
l.subplot (212) 
.Xlabel('BV') 
. ylabel('UV') 
.plot(accessdata[:,0], accessdata[:,1], '.') 
for i in range (len (result)-1): 

pl.plot (rand array[i,0],rand array[i, 1],plotshape[i]) 
for i in xrange(7): = 

pi.plot(w[i,0], w[i,l],colorindex[i]+'v') 
pl.show () 
Epoch: 20; Error: 786.921489826; 
Epoch: 40; Error: 784.125494497; 
Epoch: 60; Error: 783.165674735; 
Epoch: 80; Error: 782.677433443; 
Epoch: 100; Error: 782.381170541; 
Epoch: 120; Error: 782.182073001; 
Epoch: 140; Error: 782.039000206; 
Epoch: 160; Error: 781.931187336; 
Epoch: 180; Error: 781.84701229; 
Epoch: 200; Error: 781.77945951; 
The maximum number of train epochs is reached 
>>> 
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运行 程序 8-27.py， 将 样本 聚 成 7 类 ， 同 时 将 测试 点 较 好 地 完成 分 类 。 效 果 如 图 8-59 所 示 。 
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88-59 Jb GE 
观察 图 8-59， 不 同色 彩 的 多 边 形 代表 了 测试 点 被 分 成 了 7 类 ， 此 外 ， 程 序 还 绘制 了 样本 点 及 倒 三 角 代表 的 类 别 中 心 点 ， 总 体 来 看 ， 效 果 还 不 错 。 
8.9.5 Hamming 神 经 网 络 


图 8-60 是 最 典型 的 Hamming 神 经 网 络 ， 第 一 层 上 面 的 方 框 是 输入 数据 ， 每 个 输入 数据 都 会 与 神经 元 相连 。 每 个 神经 元 的 一 组 连接 权 值 存储 的 是 一 个 识别 对 象 的 模板 ， 神 经 元 的 作用 就 是 计算 输入 数据 
与 其 连接 权 值 所 存 模板 的 匹配 距离 ， 匹 配 程度 由 神经 元 输出 ， 匹 配 度 越 高 ， 输 出 值 越 大 。 


— 
= 





8-60 ”Hamming 和 神经 网 络 


假设 销售 某 虚 拟 物品 时 ， 向 客户 展示 了 一 些 相关 的 畅销 虚拟 物品 ， 以 吸引 客户 点 击 购买 ， 以 表 8-9 所 示 的 数据 为 例 ， 将 消费 兴趣 类 似 的 客户 分 类 。 


表 8-9 ”点 击 数据 


表 8-9 中 ，A1 表 示 A 类 虚拟 物品 的 1 号 商品 ，B2 表 示 B 类 虚拟 物品 的 2 号 商品 ， 以 此 类 推 。 每 一 行 代表 一 类 ， 每 列 数据 代表 该 类 客户 浏览 的 虚拟 商品 ， 如 果 该 虚拟 商品 点 击 量 较 多 ， 则 为 1， 否 则 为 -1。 


编写 Python 代码 进行 聚 类 (sales4.csv 在 本 书 源 代码 包 中 ) ， 如 程序 8-28.py 所 示 。 








# -*- coding: utf-8 -*- 

#code :myhaspl@myhasp1 . com 

#8-28.py 

import numpy as np 

import neurolab as nl 

# 读 取 数 据 

import csv 

datatarget-[] 

file = open("sales4.csv",'r') 

file.readline() 

reader = csv.reader (file) 

ii-0 

For datarow in reader: 
datatarget.append([]) 

for data in datarow: 

datatarget [ii].append (int (data)) 

іі=іі+1 

datatarget-np.array (datatarget) 

input Ен К К КЫ ЫК yl; =l =l] 

рр Тее у 7 一 7 一 ] ] 

[ул н Т Вр Пер 

# Create and train network 

net = nl.net.newhem(datatarget) 
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output = net.sim(datatarget) 

print un" 样本 数据 ， 结 果 必 须 为 [0，1，2，3，4]" 
print np.argmax(output, axis-0) 

output = net.sim(input) 

print u" 测 试 数据 的 神经 网 络 最 终 输 出 " 





output 


print un" 测 试 数据 的 分 类 结果 如 下 : " 

ii-0 

for test in output: 
print input[ii], 
print u"ZrXdwT:" 
print np.argmax (test) 
ii+=1 

















程序 8-28.py 首 先 读 取样 本 sales4.csv 文 件 ， 然 后 将 样本 数据 送 入 Hamming 神 经 网 络 中 进行 训练 ， 匹 配 程度 由 神经 元 输出 ， 匹 配 度 越 高 ， 输 出 值 越 大 ， 通 常 来 说 最 大 值 对 应 的 位 置 即 最 终 分 类 ; 最 后 ， 
用 测试 数据 进行 验证 。 执 行程 序 8-28.py， 结 果 如 下 。 


样本 数据 的 结果 必须 为 [0，1，2，3,，4] 。 


[0123 4] 


测试 数据 神经 网 络 的 最 终 输出 如 下 : 


[[ 0.52608 0 0 0. 0 ] 
[ 0. 0 0 0.464 0 ] 
[ 0. 0 0 0. 0.4992 1] 


来 看 看 测试 数据 的 分 类 结果 。 


[1, 1, 1, 1, -1, 1, T. = 2 -1 ， zi -1] 分 类 如 下 : 


[l #1 T= Dsl #1„ T 11 ЩЕ: 


[ls 1; 5T; sl, 1, -1; 11,1, T; 1; DR 


观察 上 述 结果 ， 三 组 测试 数据 均 分 类 准确 ， 效 果 不 错 。 


840 小 结 


机 器 学 习 算 法 是 机 器 学 习 的 灵魂 。 本 章 首先 介绍 神经 网 络 ， 由 浅 入 深 地 讲述 了 基于 Rosenblatt 感 知 器 的 线性 神经 网 络 、 反 向 传播 算法 及 基于 多 层 感知 器 的 非 线 性 神经 网 络 ;， 然 后 介绍 了 平均 值 与 方差 、 
贝 叶 斯 分 类 等 统计 算法 ; 接着 前述 了 相似 度 算 法 的 两 个 常用 方法 : 欧 氏 距离 和 余弦 相似 度 ; 再 然后 讲解 了 SVM、 回 归 算 法 、PCA 降 维 等 机 器 学 习 算法 ; 最 后 讲解 了 关联 规则 算法 、 常 用 聚 类 算法 、 决 策 树 算 


法 、AdaBoost 算 法 、 竞 争 型 神经 网 络 、Hamming 神 经 网 络 等 算法 知识 。 


在 讲述 算法 的 同时 ， 笔 者 理论 联系 实际 ， 讲 解 了 如 何 用 Python 及 相关 库 、R 语 言 来 实践 机 器 学 习 算法 。 此 外 ， 为 帮助 读者 更 好 地 理解 算法 ， 在 解说 每 一 节 的 算法 之 前 ， 均 介绍 了 算法 涉及 的 数学 基础 知 


识 。 
每 一 种 机 器 学 习 算 法 不 一 定 能 完成 所 有 机 器 学 习 的 任务 。 因 此 ， 应 在 实践 中 应 用 这 些 算 法 ， 观 察 算法 的 实际 效果 ， 以 求 选择 最 合适 的 算法 。 
此 外 ， 本 章 介 绍 的 机 器 学 习 相关 库 的 官方 文档 的 网 址 如 下 : 
. mlpy: http://sourceforge.net/projects/mlpy/files/mlpy%203.5.0/mlpy.pdf/download 


: neutolab: https://pythonhosted.org/neurolab/index.html 
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(1) 编写 Python 代码 实现 一 个 Rosenblatt 感 知 器 ， 随 机 产生 一 组 X 和 Y 的 样本 值 ， 这 些 样本 值 分 别 属于 以 下 两 类 函数 : 
5x-3=y 为 第 1 类 
2х+6 =у 2) 第 2 类 


然后 用 随机 生成 的 测试 数据 进行 分 类 ， 并 绘制 出 分 类 线 。 


(2) 编写 Python 代码 实现 多 层 感 知 器 ， 随 机 产生 一 组 X 和 Y 的 样本 值 ， 用 随机 数据 对 训练 后 的 网 络 进行 测试 绘制 散 点 图 和 误差 曲线 ， 计 算 X 和 Y 的 方差 和 平均 值 ， 分 析 其 分 布 趋势 。 
(3) 编写 Python 代码 实现 多 层 感 知 器 ， 绘 制 样本 散 点 图 和 误差 曲线 。 随 机 产生 一 组 X 样 本 值 ， 并 将 Y 的 样本 值 函 数 定义 为 : 


Y-sin(x)*0.7 
(4) 编写 Python 代码 实现 SVM 算法 ， 随 机 产生 一 组 X 和 Y 的 样本 值 ， 这 些 样本 值 分 别 属于 以 下 两 类 函数 : 
y-x^atb (a<=3, abs(b)<20)2; # — % 

y-x^atb (a>=5，abs(b)<10) 为 第 二 类 

然后 用 随机 生成 的 测试 数据 进行 分 类 ， 并 绘制 出 散 点 图 。 


(5) 选择 一 组 数据 ， 用 Python 实 现下 面 的 回归 方程 : 


y=b1*x2+b2*x12+b3*x1*x2 
(6) 下 载 本 书 的 sales4.csv 文 件 ， 加 入 更 多 类 别 的 样本 数据 ， 并 生成 一 些 随机 测试 数据 ， 进 行 Hamming 神 经 网 络 分 类 ， 并 测试 分 类 效果 。 
(7) 生成 0~ 9 共 9 个 数字 的 印刷 体 样本 ， 并 生成 一 些 测 试 样本 数据 ， 进 行 Hamming 神 经 网 络 分 类 ， 检 查分 类 效果 。 


提示 : 可 将 数字 的 像素 点 组 成 矩阵 ， 然 后 展开 成 特征 向 量 。 比 如 : 8 可 表示 为 以 下 由 像素 点 组 成 的 矩阵 (1 表示 有 像素 点 ，-1 表 示 无 像素 点 ) : 


将 8 的 像素 点 矩阵 由 左 到 右 、 由 上 到 下 依次 展开 ， 生 成 特征 值 如 下 : [1, 1, 1, 1, -1, 1, 1, 1, 1, 1, -1, 1, 1, 1, 1] 。 


(8) 下 表 是 某 些 顾客 对 A~D 四 类 商品 的 季度 消费 金额 ， 对 这 些 顾客 运用 本 章 讲 解 的 各 种 聚 类 方法 进行 聚 类 。 
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第 9 草 ”数据 拟 合 案例 


在 科学 和 工程 问题 上 可 通过 采样 、 实 验 等 方法 获得 若干 离散 的 数据 ， 分 析 这 些 数据 能 得 到 一 个 连续 的 函数 (曲线) 或 者 更 加 密集 的 离散 方程 ， 且 这 个 方程 与 已 知 数据 相 吻 合 ， 这 个 过 程 叫做 数据 拟 合 。 
数据 拟 合 实质 是 针对 一 组 未 知 规律 的 数据 建立 数学 方程 ， 通 过 数学 方法 建立 一 个 函数 映射 方式 。 


前 面 几 章 涉及 了 很 多 回归 分 析 算 法 ， 都 是 先 根据 样本 建立 模型 ， 然 后 分 析 回 归 效 果 ， 最 终 目 的 是 弄 清楚 两 个 或 两 个 以 上 变量 之 间 的 因果 关系 ， 因 此 ， 这 些 算法 都 是 对 数据 的 拟 合 。 


9.1 数据 拟 合 
分 析 一 个 自 变量 和 一 个 因 变量 之 间 的 关系 ， 可 通过 图 像 分 析 法 与 神经 网 络 拟 合法 建立 数学 异型 进行 映射 。 
9.1.1 图 像 分 析 法 


顾名思义 ， 图 像 分 析 法 就 是 将 样本 数据 中 的 自 变 量 X 和 因 变 量 Y 的 值 映 射 为 平面 直角 坐标 系 中 的 点 ， 其 X 轴 坐标 和 Y 轴 坐标 的 值 分 别 为 自 变 量 和 因 变 量 的 值 ， 这 些 点 共同 形成 一 个 散 点 图 。 通 过 分 析 散 点 图 
中 这 些 点 的 几何 分 布 趋势 ， 对 照常 见 函数 图 像 ， 选 择 最 接近 的 、 最 适合 的 数学 函数 作为 拟 合 方程 。 


既然 是 图 像 分 析 法 ， 那 么 就 需要 对 常见 的 数学 函数 及 其 图 像 有 一 个 直观 的 认识 。 因 此 ， 这 里 先 介绍 常见 的 数学 函数 。 
1 SERIE 
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数 为 1、2、1/2 的 辕 函 数 ， 它 们 分 别 为 y=x、y=x2、y=x! 2， 图像 如 图 9-1 所 示 。 





站 数 为 3、1/3 的 办 函 数 ， 它 们 分 别 为 y=x”?、y=x! 候 ， 图 像 如 图 9-2 所 示 。 
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图 9-1 1846231. 2. 1/289 X S ЖЕ |1# 
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图 9-2 150203. 1/389] S 34842 


- 指数 为 -1 的 罕 函 数 ， 函 数 为 y=x1， 图 像 如 图 9-3 所 示 。 
2. 一 次 函数 
一 次 函数 又 称 线性 函数 ， 是 指 拥有 一 个 变量 的 一 阶 多 项 式 函 数 。 一 次 函数 可 以 表达 为 以 下 斜 截 式 的 格式 : 
f(x) -kx--b 
其 中 ，Kk 是 斜率 ，b 是 截 距 。 


一 次 函数 在 二 维 坐标 系 中 表现 为 一 条 直线 ， 以 自 变量 为 X 轴 ， 以 因 变量 为 Y 轴 。 如 : y=2x+1 和 y=-x+1 属 于 一 次 函数 ， 它 们 的 图 像 如 图 9-4 所 示 。 
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图 9-4 一 次 函数 图 像 
3. 一 元 二 次 函数 
如 果 y=ax<+bx+c (a. b. с, a7R390)  ， 则 称 y 为 x 的 一 元 二 次 函数 ， 其 中 ，a 称 为 二 次 项 系数 ，b 为 一 次 项 系数 ，c 为 常数 项 。 


= b b 4ac—b2 
一 元 二 次 函数 是 抛物 线 ， 是 轴 对 称 图 形 ， 它 的 对 称 轴 为 直线 2a, 它 的 顶点 坐标 为 м ж | 此 外 ， 一 元 一 次 尔 数 还 可 写成 交点 式 : y=a(x-X1)(x-x2), szesstfXIB-T- odisse ODER, Баве 


(х1, 0) 和 (x2, 0) 。 


如 图 9-5 所 示 为 一 元 二 次 函数 y=2x<+x+1 和 y=-2x<+X+2 的 图 像 。 从 图 像 上 观察 ， 一 元 二 次 函数 是 一 个 开口 向 上 或 开口 向 下 的 抛物 线 ， 二 次 项 系数 a 决定 抛物 线 的 开口 方向 和 大 小 ， 当 a>0 时 ， 抛 物 线 向 
上 开口 ; 当 a<0 时 ， 抛 物 线 向 下 开口 。|a| 越 大 ， 则 抛物 线 的 开口 越 小 。 


4. 指 数 国 数 
指数 函数 y= ex 是 数学 中 重要 的 函数 ， 这 里 的 e 是 数学 常数 ， 就 是 自然 对 数 的 底数 ， 近 似 等 于 2.718281828。y=ex 的 图 像 总 在 x 轴 之 上 并 从 左 向 右 递 增 ， 它 接近 x 轴 但 不 会 与 x 轴 相交 。 


此 外 ， 还 可 定义 更 一 般 的 指数 函数 y=a"， 对 于 a>0 和 实数 x， 该 函数 可 称 为 底数 为 a 的 指数 函数 。a* 可 如 下 变换 为 以 e 为 底 的 指数 函数 。 


ах= (elnayxz exlna 


观察 图 9-7 所 示 的 指数 函数 y=a"， 当 a>1 时 ， 从 左 到 右 函 数 是 递增 的 ， 否 则 函数 是 递减 的 。 指 数 函 数 遵循 以 下 运算 规律 
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5. 对 数 函 数 


相对 于 底数 o 数 x 的 对 数 是 oY 的 指数 y， 使 得 x=aY， 相 对 于 底数 a 的 数 x 的 对 数 通 常 记 为 y=logax， 在 工程 计算 中 常用 e、10 和 2 来 做 底数 ， 如 表 9-1 所 示 。 


观察 图 9-8 所 示 的 对 数 函数 图 像 ， 可 看 出 : jo 1 时 ， 遂 数 是 递增 的 ， 否 则 ， 逊 数 是 递减 的 。 自 然 对 数 的 底 e 大 于 1， 它 的 函数 图 像 是 递增 的 ， 如 图 9-9 所 示 。 


表 9-1 常用 对 数 函 数 表示 
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三 角 函 数 中 使 用 得 最 多 的 是 正弦 (如 图 9-10 所 示 ) 、 





АХ T 


余弦 (如 图 9-10 所 示 ) 、 


正切 (如 图 9-11 所 示 ) 、 





余 切 (如 图 9-12 所 示 ) 。 
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图 9-10 正统 函数 与 余 纺 函数 


y tan x 
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7. 多 项 式 函 数 


x 3x! 3x 


š РА ` © .y=—+— 2 l u — 
多 项 式 的 函数 图 像 呈 现 连续 曲线 ， 以 多 项 式 ” 4 а 2 “和 y=x?-x-2 为 例 ， 其 函数 图 像 如 图 9-13 和 图 9-14 所 示 。 


仔细 观察 前 面 列举 的 函数 图 像 ， 可 发 现 带 见 的 函数 分 为 两 种 : 线性 函数 与 非 线 性 函数 。 其 中 ， 线 性 函数 是 变量 与 自 变量 成 一 次 方 的 函数 关系 ， 在 函数 图 上 呈现 一 条 直线 ; 而 非 线 性 函数 是 指 两 个 变量 间 
的 关系 不 成 简单 比例 ， 函 数 图 像 呈现 为 曲线 。 


线性 拟 合 是 以 一 条 直线 来 拟 合 自 变量 与 因 变量 的 关系 ， 而 非 线性 拟 合用 连续 曲线 来 拟 合 自 变量 与 因 变 量 之 间 的 关系 。 下 面 以 几 个 具体 实例 说 明 图 像 分 析 法 在 线性 与 非 线 性 拟 合 中 的 应 用 。 








图 9-14 y2x^-x-2 84 у% X ES 42 


1) 多 项 式 是 非 线性 函数 ， 如 图 9-15 所 示 的 图 像 为 两 类 样本 数据 生成 的 散 点 图 ， 其 中 虚线 和 实 线 各 代表 一 类 . 
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99-15 多项式 非 线性 拟 合 


从 图 9-15 看 ，X 轴 的 区 域 为 [0，5] ， 两 条 曲线 代表 的 数据 都 比较 接近 多 项 式 函 数 图 像 y=xa+ b， 因 此 ， 可 选用 盐 函 数 作为 数据 拟 合 的 模型 。 此 外 ， 从 图 像 可 判定 ， 虚 线 函 数 的 导数 要 比 实 线 函 数 的 导数 
增长 得 快 ， 虚 线 数 据 表示 的 方程 参数 a 要 比 实 线 表 示 的 方程 参数 a 大 ， 原 因 是 : 导数 即 切 线 的 斜率 ， 导 数 越 大 ， 切 线 越 陆 ， 而 虚线 函数 的 切线 明显 要 比 实 线 函 数 陡 很 多 ， 它 的 曲线 在 后 期 更 加 上 扬 。 事 实 上 ， 
图 9-15 所 代表 的 两 类 数据 的 模型 分 别 为 : 虚线 是 y=x?+6， 实 线 是 y=x3+6。 

2) 大 学 生 身高 与 体重 线性 拟 合 。 从 某 大 学 中 随机 选取 9 名 女 大 学 生 ， 其 身高 和 体重 数据 如 表 9-2 所 示 。 下 面 分 析 这 些 数据 并 建立 女 大 学 生 身高 与 体重 模型 ， 从 而 指导 女 大 学 生 通过 简易 的 公式 查询 自己 
的 体重 是 否 标准 。 


表 9-2 女 大 学 生 身高 与 体重 数据 
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首先 ， 使 用 R 语 言 输入 数据 (本 例 只 有 9 个 数据 ， 可 手工 录入 。 当 数据 量 很 大 时 ， 可 使 用 第 6 章 介绍 的 read.table 函 数 读 取 数 据 ) 。 





>c (58, 63,57, 65, 62, 66, 58, 59, 62) -> 
>с (160,165,158, 172,159,176,160,162,171) ->x 





接着 ， 用 自 变 量 身高 (x) 与 因 变 量 体 重 (y) 组 成 9 个 数据 点 ， 绘 制 在 直角 坐标 系 中 ， 生 成 散 点 图 
观察 分 析 散 点 图 趋势 ， 图 9-16 表 明 ， 随 着 x 的 增长 ，y 也 增长 ， 数 据点 呈 一 条 直线 分 布 (线性 拟 合 ) 。 


o8 60 62 64 66 





9-16 ” 女 大 学 生 身 高 体重 散 点 图 


下 面 以 直线 模型 对 数据 进行 拟 合 ， 可 通过 R 语 言 进行 拟 合 分 析 。 











> lm(y-x)->xy 
> шаку) 
Ca] 
lm (і Formala = = y ~ х) 
Residuals: 
Min 10 Median 3Q Max 


-1.7317 -1.0989 -0.9412 0.8471 3.3223 
Coefficients: 








Estimate Std. Error t value Pr(»|t|) 

(Intercept) -8.28830 15.94636 -0.520 0.61926 

x 0.42117 0.09671 4.355 0.00333 ** 

Signif. codes: 0 ‘***’” 0,001 ‘**’” 0.01 “° 0,05 ^? 0.1 <? 1 
Residual standard error: 1.808 on 7 degrees of freedom 

Multiple R-squared: 0.7304, Adjusted R-squared: 0.6919 
F-statistic: 18.97 on 1 and 7 DF, p-value: 0.003334 
































通过 对 上 述 直 线 方程 模型 的 分 析 ， 可 初步 得 出 以 下 结论 : 
| 直线 方程 即 线性 方程 ， 可 写成 yY=ax+b 的 方式 ，a 即 系数 (Coefficients 项 中 的 x) 为 0.42117，b 即 截 距 〈CoefGciehts 项 中 的 Intetcept) 为 -8.28830， 线 性 拟 合 模型 为 y=0.42117x-8.28830。 


Coefficients 栏 的 x 行 尾 的 星 号 为 2 个 。 星 号 的 含义 表示 线性 关系 是 否 显著 ;: * 的 数量 是 0~3，*# 的 数量 越 多 则 线性 关系 越 显 著 。 在 本 例 中 ， 自 变量 身高 与 因 变 量 体 重 的 线性 关系 并 不 是 非常 显著 ， 否 则 星 号 


应 为 3 个 。 


下 面 绘制 回归 线 ， 图 9-17 所 示 。 观 察 各 数据 点 在 回归 线 周 围 的 分 布 情况 ， 目 测 拟 合 效果 。 


> plot (x, y) 
> abline( lm(y~x)) 


从 图 9-17 来 看 ， 数 据 分 布 在 回归 线 周 围 ， 但 某 些 数 据点 的 残 差 较 大 (比如 155 到 160 身 高 段 ) 。 总 体 来 说 ， 数 据 拟 合 效果 较 好 ， 没 有 出 现 数据 点 分 布 趋势 严重 偏离 回归 线 。 


通过 R 语 言 的 residuals 函 数 分 析 残 差 。 


> residuals (ху) ->xy res 
> ху гез 





І 2 3 4 9 6 7 
-1.0988557 1.7952956 -1.2565162 0.8471074 3.3223140 0.1624285 -1.0988557 











8 9 
-0.9411952 -1.7317228 





残 差 计 算 的 方式 为 : 通过 上 一 步 计算 得 到 的 线性 模型 ， 将 9 个 女 大 学 生 的 自 变 量 身高 带 入 线性 模型 中 的 x， 计 算出 观测 的 y 值 后 ， 计 算 实际 值 与 预测 y 值 的 差额 ， 这 个 差额 就 是 残 差 。 如 果 拟 合 模 型 正确 ， 
可 以 将 残 差 看 作 误差 的 观测 值 ， 它 应 符合 模型 的 假设 条 件 ， 且 具有 误差 的 一 些 性 质 。 


上 述 代 码 根据 线性 模型 计算 得 出 残 差 对 象 xy_res，9 个 元 素 分 别 为 9 个 女 大 学 生 样本 数据 的 残 差 ， 其 中 残 差 最 大 的 数据 为 第 5 个 女 大 学 生 ， 即 3.3223140， 最 小 为 0.1624285， 是 第 6 个 女 大 学 生 。 


然后 ， 计 算 残 差 平 方 和 。 残 差 平方 和 是 指 每 个 残 差 的 平方 后 的 累计 ， 它 表示 随机 误差 的 效应 。 残 差 平 方 和 是 衡量 拟 合 优 度 的 重要 标准 ， 它 的 值 越 小， 说 明 拟 合 效果 越 好 。 通 过 下 面 代码 计算 ， 线 性 模型 
拟 合 后 的 残 差 平 方 和 为 22.88334。 


> sum(xy res*xy res) 
[1] 22.88334 


最 后 ， 分 析 残 差分 布 、 标 准 残 差 及 标准 残 差 图 。 


> qgnorm(xy res) 
> qqline (xy res) 


观察 残 差 分 布 QQ 图 ， 如 图 9-18 所 示 。 可 看 出 : 残 差 6 分 布 接近 正 态 分 布 ， 数 据点 基本 在 直线 附近 ， 回 归 效 果 较 理想 ， 但 仍 不 是 非常 理想 。 
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R Graphics: Device 2 (ACTIVE) 
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9-17 女 大 学 生 身高 体重 数据 的 回归 线 
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Normal Q-Q Plot 
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图 9-18” 残 差分 布 QQ 图 


标准 残 差 就 是 ( 残 差 5- 残 差 的 均值 ) / 残 差 的 标准 差 ， 用 5* 表 示 。 下 面 通过 R 语 言 的 rstandard 函 数 计算 身高 体重 拟 合 模型 的 标准 残 差 ， 同 时 绘制 标准 残 差 图 ， 图 9-19 所 示 。 


> rstandard(xy)-»std ху res 

> std xy res 1 2 3 4 5 6 7 -0.6696927 1.0532610 -0.7984996 0.5447647 2.0629420 0.1235619 -0.6696927 € 
-0.5591209 -1.0857787 

> plot (x, std xy res) 

> abline (h-0) 


标准 残 差 图 是 以 拟 合 模型 的 自 变 量 为 横 坐 标 ， 以 标准 残 差 为 纵 坐标 ， 将 每 一 个 自 变量 的 标准 残 差 描述 在 该 平面 坐标 上 ， 形 成 图 形 ， 实 验 点 的 标准 残 差 落 在 残 差 图 的 (-2, 2) 区 间 以 外 的 概率 <0.05， 若 
某 一 实验 点 的 标准 化 残 差 落 在 (-2, 2) 区 间 以 外 ， 可 在 95% 置 信和 度 将 其 判 为 异常 实验 点 。 置 信 度 也 称 置 信 水 平 ， 抽 样 不 可 能 抽取 全 部 总 体 进行 分 析 ， 由 于 样本 的 随机 性 ， 通 过 这 些 样本 对 总 体 参 数 作出 估计 
时 ， 结 论 总 是 不 确定 的 ， 因 此 引入 置信 度 ， 用 概率 来 陈述 总 体 参数 值 落 在 样本 统计 值 某 一 区 内 的 可 能 性 。 


当 摘 绘 标准 残 差 的 点 围绕 标准 残 差 等 于 0 的 直线 上 下 完全 随机 地 分 布 ， 绝 大 多 数 点 落 在 (-2, +2) 的 水 平 带 状 区 间 之 中 ， 且 不 带 有 任何 系统 趋势 时 ， 则 说 明 拟 合 模 型 对 原 观测 值 ( 即 样本 ) 的 拟 合 情 况 
良好 ， 如 图 9-20 所 示 。 


std ху res 
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图 9-19 身高 体重 标准 残 差 图 
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图 9-20” 拟 合 良 好 的 标准 残 差 图 


如 果 拟 合 方程 原本 是 非 线 性 模型 (曲线) ， 但 拟 合 时 却 采 用 了 线性 模型 (直线) ， 标 准 化 残 差 图 就 会 表现 出 曲线 形状 ， 产 生 系 统 性 偏差 ， 


针对 当前 的 拟 合 模型 ， 样 本 数据 中 如 果 出 现 了 异常 点 ， 它 们 会 远离 大 多 数 数 据点 ， 如 图 9-23 所 示 。 


说 明 拟 合 模型 不 适合 ， 如 图 9-21、 图 9-22 所 示 。 


此 外 ， 如 果 拟 合 不 充分 ， 很 多 点 会 落 
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图 9-21 出 现 系 统 性 偏差 的 标准 残 差 图 加 


图 9-22 ”出 现 系 统 性 偏差 的 标准 残 差 图 @) 


ТЕ (-2, +2) 的 水 平 融 状 区 间 之 外 ， 如 图 9-24 所 示 。 


Lok 
* „А. 

fa X 
ru. 





E d * e m 
$ * 
e + 
U = ж” ` ° Y 
А ; 
e T 
Е 2 = m = * 
E, QA. Lp 
JT FB I 





图 9-23 ”异常 点 
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99-24 ” 拟 合 不 充分 
根据 标准 残 差 图 的 相关 知识 ， 观 察 图 9-19 所 示 的 身高 体重 标准 残 差 图 ， 可 得 出 以 下 结论 : 
“ 绝 大 部 分 数据 在 (-2，+2) 的 水 平 带 状 区 间 内 ， 因 此 模型 拟 合 较 充 分 。 
. 数据 点 分 布 稍 均 匀 ， 但 没有 达到 随机 均匀 分 布 的 状态 。 此 外 ， 部 分 数据 点 还 是 呈现 某 种 曲线 波动 形状 ， 有 少许 系统 性 偏差 ， 因 此 可 能 采用 非 线 性 拟 合 效果 会 更 好 。 


3) 大 学 生 身 高 与 体重 非 线性 拟 合 。 继 续 以 女 大 学 生 身 高 与 体重 的 例子 为 例 ， 再 次 仔细 观察 图 9-16 所 示 的 散 点 图 ， 数 据点 呈现 上 吓 的 递增 曲线 分 布 ， 可 对 身高 与 体重 的 关系 应 用 非 线性 模型 ， 也 许 效果 
会 比 直线 好 ， 因 为 曲线 更 贴近 它 的 分 布 趋势 。 那 么 选用 哪个 非 线性 数学 函数 比较 适合 呢 ? 观察 前 面 列 举 的 常见 函数 图 像 ， 可 发 现 寡 函数 比较 适合 ， 尤 其 是 y=x1/2 的 函数 图 像 ， 也 呈现 上 凸 且 递增 趋势 ， 但 是 
蚌 函 数 y=xa 仅 有 一 个 参数 a， 需 要 进行 变形 ， 在 冰 数 尾部 加 上 截 距 b， 使 函数 图 像 能 在 Y 轴 整体 上 下 移动 ， 这 样 ， 就 拥有 了 两 个 可 调节 参数 ， 形 成 的 拟 合 方程 更 灵活 和 适用 。 


细心 的 读者 肯定 发 现 了 ， 加 上 截 距 后 ， 朝 函数 y=X 变 成 了 多 项 式 函 数 y=x“+b， 因 此 将 非 线 性 拟 合 模型 假设 为 y=xe+b 的 多 项 式 方 程 。 
首先 ， 显 示 自 变量 和 因 变 量 数 据 。 


[1] 160 165 158 172 159 176 160 162 171 





> 
> 
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=K X 


1] 58 63 57 65 62 66 58 59 62 


接着 ,通过 nls 函 数 建立 非 线 性 拟 合 模型 ， 并 通过 summary 函 数 分 析 该 模型 。 


> nls(y ~ Const + x^A)-»nlmod 
> summary (nlmod) 

Formula: y ~ Const + x^A 
Parameters: 
Estimate Std. Error t value Pr(»|t|) 

Const -19.66594 15.09467 -1.303 0.234 

A 0.86036 0.03657 23.523 6.37е-08 ww 

Signif. codes: 0 “жж” 0,001 =" 20.01 “ 0.05 ^? 0,1 <? 1 
Residual standard error: 1.808 on 7 degrees of freedom 

Number of iterations to convergence: 4 

Achieved convergence tolerance: 5.78e-06 









































然后 ， 计 算 残 差 ， 分 析 残 差 平 方 和 。 


> residuals (nlmod)-»nlxy res 
> nlxy res 














[1] -1.0986204 1.7882691 -1.2508068 0.8448399 3.3251002 0.1704208 -1.0986204 -0.9449555 -1.7357098 
attr(,"label") 

[1] "Residuals" 

» sum(nlxy res*nlxy res) 

[1] 22.88108 





上 述 代码 计算 得 出 的 残 差 平 方 和 为 22.88108， 比 刚才 应 用 线性 拟 合 的 残 差 平 方 和 22.88334 稍 小 些 ， 可 见 非 线 性 模型 更 适合 拟 合 本 例 中 的 身高 体重 数据 。 


下 面 ， 绘 制 残 差 的 QQ 图 ， 如 图 9-25 所 示 。 从 QQ 图 中 ， 可 看 出 : 残 差 8 分 布 接近 正 态 分 布 ， 数 据点 基本 在 直线 附近 。 





> qgnorm(nlxy res) 
» qgline(nlxy res) 








接着 ， 计 算 标准 残 差 ， 将 计算 结果 存 入 std_nlxy_res。 





> (nlxy res-mean(nlxy res))/sd(nlxy res)->std nlxy res 
> std nlxy res[1] -0.6496072 1.0574063 -0.7395947 0.4995580 1.9661322 0.1007751[7] -0.6496072 -0.5587453 -1.0263171attr(,"label")[1] "Residuals" 








绘制 标准 残 差 图 ， 如 图 9-26 所 示 。 





> plot(x,std nlxy res) 
> abline(h-0) 





通过 绘制 图 9-26 所 示 的 标准 残 差 图 ， 应 用 summary 函 数 对 非 线 性 模型 进行 分 析 ， 以 及 计算 残 差 平方 和 与 标准 残 差 ， 可 得 出 以 下 结论 : 


民 R Graphics: Device 2 (ACTIVE) BEIE 
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图 9-26 “身高 体重 非 线 性 模型 标准 残 差 图 
' 图 9-26 中 没有 任何 异常 点 ， 计 算 的 标准 残 差 全 在 〈-2，+2) 的 水 平 带 状 区 间 内 ， 模 型 拟 合 充 分 。 
: 图 9-26 中 数据 点 分 布 较 均 匀 ， 拟 合 效果 良好 。 
` 残 差 平方 和 比 线性 模型 小 ， 非 线性 模型 更 适 于 描述 女 大 学 生 身 高 与 体重 的 关系 。 
- 非 线性 拟 合 模型 为 y=x ”6-19.66594。 


最 后 ， 观 察 一 下 拟 合 预测 数据 以 及 拟 合 效果 图 ， 如 图 9-27 所 示 。 








175 








160 165 1 70 175 
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predict (nlmod) 

] 59.09862 61.21173 58.25081 64.15516 58.67490 65.82958 59.09862 59.94496 
] 63.735771 
plot (x, y) 
lines(x, predict(nlmod), col - 2) 











不 要 把 图 9-27 中 的 拟 合 线 误 看 成 直线 ， 通 过 分 析 predict(nImod) 的 执行 结果 及 得 到 的 非 线性 拟 合 方程 可 看 出 ， 拟 合 预测 点 的 位 置 在 一 条 曲线 上 ， 但 位 置 相差 不 大 。 


仔细 观察 图 9-27 ( 非 线性 拟 合 ) 与 图 9-17 (线性 拟 合 ) 的 拟 合 线 ， 可 以 看 出 ， 图 9-27 所 示 的 确实 是 一 条 曲线 。 


912 ”神经 网 络 拟 合法 


IRI 


数据 分 布 如 果 近 似 一 条 直线 ， 可 以 使 用 线性 神经 网 络 来 完成 数据 拟 合 ， 比 如 上 一 章 介绍 的 Rosenblatt 感 知 器 ; WREE, TERZE TREE AEG. БТА AMR 
像 ， 估 计 非 线性 回归 对 应 的 数学 方程 。 本 节 将 要 介绍 的 神经 网 络 方法 与 之 不 同 ， 它 具有 学 习 未 知 数据 规律 的 能 


通过 样本 对 神经 网 络 进行 训练 的 过 程 就 是 在 输入 与 输出 数据 之 间 建 立 映射 的 过 程 。 训 练 完成 后 ， 神 经 网 络 就 已 定型 ， 网 络 内 部 的 权 值 矩阵 和 神经 元 的 激活 函数 共同 组 成 了 映射 组 件 ， 这 些 组 件 代 替 了 数 


学 方程 。 

1. 弟 见 数 学 函数 拟 合 
理论 上 来 说 ， 有 了 神经 元 作为 映射 组 件 ， 神 经 网 络 可 以 对 数据 之 间 的 任何 规律 进行 学 习 和 模仿 。 下 面 是 神经 网 络 对 上 一 节 介绍 的 几 个 数学 函数 进行 拟 合 的 效果 。 
1) sin 函 数 拟 合 。 顾 名 思 义 ，sin 遂 数 拟 合 就 是 使 用 一 组 数据 x 作为 输入 ， 通 过 神经 网 络 建立 模型 ， 其 输出 值 为 sin(x)。 可 通过 使 用 Python 编 写 神 经 网 络 ， 实 现 sin 逊 数 拟 合 。 
在 华章 网 站 下 载 本 书 的 资源 包 ， 打 开 里 面 的 文档 “多 层 感 知 器 神经 网 络 源 代码 .doc”。 下 面 将 在 该 文档 中 源 代码 的 基础 上 进行 修改 ， 实 现 非 线性 拟 合 。 


首先 ， 随 机 生成 500 个 x 值 ， 同 时 计算 这 些 样本 对 应 的 目标 值 。 代 码 如 下 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#9-1.ру 

import numpy as np 

import matplotlib.pyplot as plt 
import random 

import copy 

isdebug-False 

#x 和 Gd 样本 初始 化 

train x -[] 

d=[] 

for yb i in xrange (0,500): 
train x.append([np.random.rand()^*4*np.pi-2*np.pi]) 
for yb i in xrange(0,500): 
d.append(np.sin(train x[yb i])) 

















然后 设置 相关 参数 。 代 码 如 下 : 


warray txn-len(train x[0]) 
warray n-warray txn*4*2 

# 基 本 参数 初始 化 
oldmse-10**100 
err-[] 
maxtrycount-800 
mycount-0.0 

if maxtrycount»-20: 
r-maxtrycount/10 
else: 
r-maxtrycount/2 
#siomoidxí% ж 

ann sigfun=None 























ann delta sigfun-None 


# 总 层 数 初始 化 
alllevel count=int (warray txn*4*1.5+1) 





# 非 线性 层 数 初始 化 
hidelevel count-alllevel count-1 


VE 3 AE 
learn r0-0.002 
learn r=] 











# 动 量 参 数 


train a0-learn r0*1.2 


earn r0 *1.5 











train a0*-0.001 
train a-train a0 


expect e-0.02 


接着 ， 对 数据 进行 预 处 理 ， 并 生成 初始 权 值 矩 阵 。 





# 对 输入 数据 进行 预 处 理 
ann max-[] 








def 





def 





for m ani in xrange(O0,warray txn): 


temp x-np.array (train x) 
ann max.append (np.max (temp x[:,m ani])) 
ann max-np.array (апп max) 


getnowsx (mysx,in w): 


'"'' 生 成 本 次 的 扩 维 输入 数据 ''' 
global warray n 
mysx-np.array (mysx) 

x end-[] 

for i in xrange (0, маггау n): 





x end.append (np.dot (mysx,in м[:,1])) 


return x end 





EE 1 计算 对 输入 数据 预 处 理 的 权 值 '"'' 


get inlw(my train max,w count,myin x): 


# 对 随机 生成 的 多 个 权 值 进行 优化 选择 ， 选 择 最 优 的 权 值 











global warray txn 
global warray n 
mylw-[] Е 

y in-[ 





] 
# 生 成 测试 权 值 





mylw-np.random.rand(w count,warray txn,warray n) 





for ii in xrange (0,маггау txn): 








mylw[:,ii,:]emylw[:,ii,:]*1/1 


train max[ii])*0.5 











float (my train max[ii])-1/ 





float (my | 


y in[i].append(getnowsx(myin x[xj],mylw[i]l)) 


# 计 算 输 出 
for i in xrange(0,w count): 
y in.append([]) 
for xj іп xrange(0,len(myin x)): 
+ 85% E 
mymin-10**5 


mychoice-0 
for i in xrange(0,w count): 
myvar-np.var(y in[i]) 








if abs (myvar-1)«mymin: 


mymin-abs (myvar-1) 


mychoice-i 
# 返 回 数据 整理 的 权 值 矩阵 


return mylw[mychoice] 


mylnww-get inlw(ann max,300,train x) 








def get inputx(mytrain x,myin w): 


' 将 训练 数据 通过 输入 权 数 ， 扩 维 后 形成 输入 数据 ' t1. 





end trainx-[] 





for і in xrange (0, len (mytrain x)): 





end trainx.append(getnowsx(mytrain x[i],myin w)) 


return end trainx 








x-get inputx(train x,mylnww) 
С get siminx(sim x): 


de 





de 





global mylnww 
myxx-np.array(sim x) 


return get inputx (myxx,mylnww) 
F getlevelw(myin x,wo n,wi n,w count): 











'11 计 算 一 层 的 初始 化 权 值 矩阵 "'' 
mylw-[] 

y in-[] 

# 


生成 测试 权 值 


mylw-np.random.rand(w count,wi n,wo n) 





mylw-mylw*2.-1 

















x end.append(np.dot(myin x[xj],mylw[i,:,myii])) 


# 计 算 输 出 
for i in xrange(0,w count): 
y in.append([]) 
for xj in xrange(0,len(myin x)): 
x end-[] 
for myii in xrange(0,wo n): 
y іп[1].аррепа (х end) 
# 计 算 均 方差 
mymin-10**3 


mychoice-0 
for i in xrange(0,w count): 
myvar-np.var(y in[i]) 








if abs (myvar-1)«mymin: 


mymin-abs (myvar-1) 


mychoice-i 
THÉ Vel 2025 E IE 8*9 Bu АЕ E 
csmylw-mylw [mychoice] 
return csmylw,y in[mychoice] 























ann w-[] 
def init annw(): 
global x 
global hidelevel count 
global warray n 
global d 
global ann w 
ann w=[] ` 


def generate lw(trycount): 





lwyii-np.array (х) 





for myn in xrange(0,hidelevel 


# 层 数 
ann w.append([]) 
if myn--hidelevel count-1: 














ann w[myn].append([]) 
for jjj 





elif myn--hidelevel count-2: 


| count): 


for iii in xrange (0,warray n): 


in xrange (0,warray n): 
ann w[myn] 


[iii].append (0.0) 


templw,lwyii-getlevelw (lwyii,len(d[0]),warray n,10) 











ann w[myn] .append ([]) 








else: 


for xii in xrange (0, маггау n): 


for xjj in xrange (0,len (d 
ann w[myn] [xii].append (templw[xii,xjj]) 
for xjj in xrange (len (d[0] 
ann w[myn] [xii].append (0.0) 


[0] ) ) : 





),warray n): 


templw,lwyii-getlevelw(lwyii,warray n,warray п,10) 











ann w[myn] .append((]) 








ann w-np.array (ann w) 








global ann w 

print u" 产 生 权 值 初始 矩阵 "， 
meanmin-1 

myann w-ann w 

alltry-30 

tryc-0 

while tryc«alltry: 








for i i in range (trycount): 


for xii in xrange (0, маггау n): 


for xjj in xrange (0, маггау n): 
ann w[myn] [xii].append (templw[xii,xjj]) 


print ".", 

init annw() 

if abs (np.mean (np.array (ann w)))«meanmin: 
meanmin-abs (np.mean (np.array (ann w))) 
myann w-ann w Е 





tryct-1 

if abs (np.mean (np.array (myann w)))«0.01:break 
ann w-myann w Е 
print Е 
print аА 29:5 
print u" EJ # :% 

generate lw (15) 





Ғ"5 (пр.теап (пр.аггау (апп w))) 
Ғ"5 (пр.уаү (пр.аггау (апп w))) 








下 面 ， 对 所 有 样本 数据 进行 反复 训 





练 ， 直 到 误差 降 到 期 望 值 为 止 。 单 个 样本 的 训 





练 过 程 如 下 : 




































































def sample train (myx,myd,n,sigmoid func,delta sigfun): 
' ”一 个 样本 的 前 向 和 后 向 计算 ' ! ' 
global ann yi 
global ann delta 
global ann w 
global ann wjO 
global ann y0 
global hidelevel count 
global alllevel count 
global learn r 
global train a 
global ann oldw 
level-hidelevel count 
# 清 空 yi 输出 信和 号 数组 
hidelevel-hidelevel count 
alllevel-alllevel count 











for i in xrange (0,alllevel): 
# 第 一 维 是 层 数 ， 从 0 开始 
for j in xrange(0,n): 
# 第 二 维 是 神经 元 
ann уі [1] [5]=0.0 
апп уі=пр.аггау (апп уі) 
yi-ann yi i 
t xdelta4E Fe 
for i in xrange (0,hidelevel-1): 
for j in xrange(0,n): 
ann delta[i][j]-0.0 
delta-ann delta 
Р 169 8 N, ИЛЕ F— ik 4 
ann oldw-copy.deepcopy (апп w) 
oldw-ann oldw 
# 前 向 计算 
Е isdebug:print u" 前 向 计算 中 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..." 
# 对 输入 变量 进行 预 处 理 
myo-np.array([]) 
for nowlevel in xrange (0,alllevel): 
# 一 层 层 向 前 计算 
# 计 算 诱 导 局 部 域 
my y-[] 
myy-yi [nowlevel-1] 
myw-ann w[nowlevel-1] 
if nowlevel--0: 
# 第 一 层 隐藏 层 
my y=myx 
yi[nowlevel]=my y 
elif nowlevel-- (alllevel-1): 
# A 
my y-o func(yi[nowlevel-1, :len (myd)]) 
yi[nowlevel, :len (myd) ] =ту y 
elif nowlevel-- (hidelevel-1): i 
# 最 后 一 层 输出 层 
for i in xrange (0, len (myd)): 
temp y-sigmoid func (np.dot (myw[:,i],myy)) 
my y.append(temp y) 
yi[nowlevel, :len (myd) ]-my y 

















H- 













































































else: 
# 中 间 隐 藏 层 
for i in xrange (0, len (myy)): 
temp y-sigmoid func (np.dot (myw[:,i],myy)) 
my y.append(temp y) 
yi[nowlevel]-emy у 
if isdebug: 
print Unxxxxxx 本 样本 训 25 85 dp i AE poem 
print yi 
print QU OCCKCKCK 1 1 1 k X K K KOK Ck kk eee GU 


# 计 算 误差 与 均 方 误差 
# 因 为 线性 输出 层 为 直接 复制 ， 所 以 取 非 线性 隐藏 输出 层 的 结果 

myo-yi [hidelevel-1][:len (туа) ] 

myo end-yi [alllevel-1][:len (туа) ] 

mymse-get e(myd,myo end) 

s et 

# 输 入 层 不 需要 计算 delta, 输出 层 不 需要 计算 多 

if isdebug:print u" 反 向 计算 中 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..." 
# 计 算 delta 

for nowlevel in xrange (level-1,0,-1): 

f nowlevel--level-1: 
mydelta-delta [nowlevel] 
my n-len (myd) 




















ы; 






































mydelta-delta [nowlevel-*1] 
my n-n 
myw-ann w[nowlevel] 
f nowlevel--level-1: 




















ы» 

























































































T A 
mydelta-delta sigfun (туо, туа, Мопе, Мопе, Мопе, None, None) 
## mydelta=mymse*myo 
elif nowlevel==level-2: 

# 输 出 隐藏 层 的 前 一 层 ， 因 为 输出 结果 和 前 一 层 隐藏 层 的 神经 元 数目 可 能 存在 不 一 致 的 情况 ， 所 以 单独 处 理 ， 传 输 相 当 于 输出 隐藏 层 的 神经 元 数目 的 数据 
mydelta-delta sigfun(yi[nowlevel],myd,nowlevel,level- 
1,my n,mydelta[:len (myd) ],myw[:, :len (myd) ]) 

else: 
mydelta-delta sigfun(yi[nowlevel],myd,nowlevel,level- 
1,my n,mydelta,myw) 
delta[nowlevel][:my n]-«mydelta 
# 计 算 与 更 新 权 值 W 





for nowlevel in xrange (level-1,0,-1): 
# 每 个 层 的 权 值 不 一 样 














if nowlevel--level-1: 
# H E 
my n=len (myd) 








mylearn r-learn r*0.8 
mytrain a-train a*1.8 
elif nowlevel--1: i 

# 输 入 层 

my n-len (myd) 

mylearn r-learn r*0.9 
mytrain a-train a*0.8 

















else: 
# 其 他 层 
my n=n 
mylearn r-learn r 
mytrain a-train a 
pre level myy-yi[nowlevel-1] 
pretrain myww-oldw [nowlevel-1] 
pretrain myw-pretrain myww[:,:my n] 
# 第 二 个 调整 参数 
temp i-[] 
for i in xrange(0,n): 
temp i.append([]) 
for jj in xrange (0,my n): 

temp i[i].append (mylearn r*delta[nowlevel,jj]*pre ` 























level туу[1]) 
temp rs2-np.array(temp i) 
temp rsl-mytrain a*pretrain myw 
# 总 调整 参数 
temp change-temp rsl+temp rs2 
my ww-ann w[nowlevel-1]  - 
my ww[:,:my n]*-temp change 























if isdebug 
print "т "т 
print u"***Jx4ü Ек" 
print ann w 
print u"***4$ ЕЕ" 
print delta 
print n" Lil 





return mymse 


经 过 43 次 训练 ， 误 差 率 降 到 了 0.02 以 下 , jl 





练 过 程 停止 ， 如 下 所 示 : 



































= 开始 第 41 次 训练 --------- 误差 为 : 0.026790 
------- 开始 第 42 次 训练 --------- 误差 为 : 0.021292 
一 一 一 一 一 一 一 开始 第 43 次 训练 --------- 误差 为 : 0.019350 训 练 成 功 ， 正 在 进行 检验 


最 后 ， 进 行 仿真 测试 。 下 面 是 一 个 样本 值 的 仿真 计算 过 程 。 














def simulate (myx,sigmoid func,delta sigfun): 
' ! 一 个 样本 的 仿真 计算 '' ü 

rint u" 仿 真 计算 中 " 

obal ann yi 

obal ann w 

obal ann wjO 

ann yO 

obal hidelevel count 

obal alllevel count 


























Q Q Q Q .Q Q Q .Q 'O 
О 
о 
Ф 











ора1 а 
obal mylnww 
myd-d[0] 


myx-np.array (myx) 

n-len (myx) 

# 清 空 Yi 输出 信号 数组 

hidelevel-hidelevel count 

alllevel-alllevel count 

for i in xrange (0,alllevel): 

## 第 一 维 是 层 数 ， 从 0 开始 

for j in xrange(0,n): 

# 第 二 维 是 神经 元 
ann yi[i][j]=0.0 
ann yi=np.array (ann yi) 

yi=ann yi Е 

# 前 向 计算 

myy-np.array([]) 

for nowlevel in xrange (0,alllevel): 
# 一 层 层 向 前 计算 
# 计 算 诱导 局 部 域 
my y-[] 
myy-yi [nowlevel-1] 
myw-ann w[nowlevel-1] 
if пом1еуе1==0: 

# 第 一 层 隐藏 层 
my y-myx 
yi[nowlevel]-my y 

elif nowlevel-- (alllevel-1): 
# 线 性 输出 层 
my y-o func(yi[nowlevel-1, :len (myd)]) 
yi[nowlevel,:len (пуа) ]=my y 

elif nowlevel-- (hidelevel-1): 

# 最 后 一 层 隐 藏 输出 层 


for i in xrange (0, len (myd)): 
















































































temp y-sigmoid func (np.dot (myw[:,i],myy)) 


my y.append(temp y) 
yi[nowlevel, :len (пуа) ]=my y 




















else: 
# 中 间 隐 藏 层 
# 中 间 隐 藏 层 需要 加 上 偏 置 
for i in xrange (0, len (myy)): 
temp y-sigmoid func (np.dot (myw[:,i],myy)) 
my y.append(temp y) 
yi[nowlevel]-emy у 
if isdebug: 
print "Ó "т 
print u"***jX 4g Be ex 
print ann w 
print u'o* dg р" 
print yi 
print "Ó "Ó 














return yi[alllevel-1,:len (myd)] 
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为 了 验证 效果 ， 绘 制 数据 拟 合 效果 和 误差 曲线 ， 如 图 9-28 所 示 。 图 9-28 的 上 部 是 拟 合 效果 图 ， 目 标 值 和 预测 值 很 接近 ， 下 部 是 误差 曲线 ， 下 降 平滑 。 


2) 0.6sin(x) 函 数 神经 网 络 拟 合 。 下 面 党 试 实现 稍 复杂 数学 函数 的 拟 合 ， 比 如 y=0.6sinC0。 这 里 的 Python 实现 代码 与 前 面相 同 ， 因 此 ， 只 是 在 样本 数据 初始 化 代码 段 进行 了 修改 。 示 例如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#9-2.ру 
import numpy as np 
import matplotlib.pyplot as plt 
import random 
import copy 
isdebug-False 
fcfe aue A 3646 
train x -[] 
d-[] 
for yb i in xrange(0,500): 
train x.append([np.random.rand()*4*np.pi-2*np.pi]) 
for yb i in xrange (0,500): 
d.append(np.sin(train x[yb i])*0.6) 




















经 过 71 次 训 





练 ， 神 经 网 络 的 收敛 目标 达到 ， 也 就 是 说 误差 率 达 到 了 期 望 值 。 



































сы 开始 第 69 次 训练 --------- 误差 为 : 0.020464 
Ен 开始 第 70 次 训练 --------- 误差 为 : 0.020673 
__ 开始 第 71 次 训练 --------- 误差 为 : 0.019350 训 练 成 功 ， 正 在 进行 检验 


图 9-29 为 程序 绘制 的 拟 合 效果 和 误差 曲线 图 。 
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3) 0.5sinC0+0.5cos(X) 函 数 拟 合 。 前 两 个 例子 使 用 了 本 书 资源 包 所 示 的 Python 代码 。 下 面 使 用 Neurolab 库 实现 对 0.5sin(0+0.5cos(X) 的 拟 合 。 代 码 如 下 : 











#!/usr/bin/env python 

f-*- coding: utf-8 -*- 

#9-3.ру 

# 拟 合 Sinx0.5+Ccosx0.5 

import neurolab as nl 

import numpy as np 

import matplotlib.pyplot as plt 

isdebug-False 

#x 和 q 样 本 初始 化 

train x -[] 

d=[] 

samplescount=1000 

myrndsmp=np. random. rand (samplescount) 

for yb i in xrange (0,samplescount 
train x.append([myrndsmp[yb i] 

for yb i in xrange (0, samplescount) 
d.append(np.sin(train x[yb i]) 

myinput-np.array (train x) 

mytarget-np.array (d) 











*à*np.pi-2*np.pil) 


— 

















*0.5+np.cos (train x[yb i])*0.5) 




















bpnet = nl.net.newff([[-2*np.pi, 2*пр.рі]], [5, 11) 

err = bpnet.train(myinput, mytarget, epochs-800, show-100, goal-0.02) 

simd-[] 

for xn in xrange(0,len(train x)): 
simd.append(bpnet.sim([train x[xn]]) [0] [0]) 

temp x-[] 

temp y-simd 

temp d-[] 

mg 

for mysamp in train x: 





temp x.append (mysamp[0]) 
temp d.append (d[i][0]) 

і+=1 
х max-max(temp x) 
(temp x) 
y max-max (max (temp y),max(d))40.2 
y min-min (min (temp y),min(d))-0.2 





























plt.xlabel (u"x") 
plt.xlim(x min, x max) 
pit.ylabel (u"y") 
plt.ylim(y min, y max) 





lp x1 = temp x 

lp x2 = temp y 

p d = temp d 

.plot (lp xi, lp x2, 'r*') 
plot (1р х1,1р d,'bo') 
show () 












































800 次 训练 后 ， 拟 合 效果 较 好 ， 如 图 9-30 所 示 。 


0.5 


> 0.0 





图 9-30 0.55іп(х) +О.5соѕ(х) #9 4L Z 


2. 钢 包 使 用 次 数 与 容积 模型 拟 合 
表 9-3 是 钢 包 使 用 次 数 与 容积 实测 数据 ， 以 x 为 输入 ，y 为 输出 ， 在 输入 与 输出 数据 之 间 可 建立 非 线 性 关系 。 这 里 用 神经 网 络 建立 数据 拟 合 模型 。 


表 9-3 钢 包 使 用 次 数 与 容积 实测 数据 


容积 
106.42 
108.2 
109.58 
109.5 
/ 110 
109.93 
10 110.49 
11 110.59 
14 110.6 
15 110.9 
16 110.7 
18 111 
19 111.2 





下 面 尝试 应 用 神经 网 络 完成 以 上 数据 拟 合 任务 ， 这 里 调用 Neurolab 库 ， 用 Python 实现 。 


首先 读 取 数据 文件 。 代 码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#9-4.ру 

import numpy as np 
import pylab as pl 
import neurolab as nl 
print u' 正 在 处 理 中 ' 

#Xx 和 qd 样本 初始 化 




















f text = f.read( ) 
finally: 
f.close( ) 
X text-f text.split('WMn') 

for line i in xrange(0,len(x text)): 
line-x text[line i] i 

if line i»1 and len (line)»0: 



































train x.append([]) 

hdata-line.split(',') 
train x[line i-2].append(float (hdata[0])) 
d.append ( [float (hdata[1])]) 




















接着 ， 生 成 样本 数据 ， 一 般 情 况 下 ， 使 用 tanh 的 神经 网 络 输出 值 不 会 超过 1， 因 此 ， 设 置 调整 系数 ， 把 输出 值 处 理 成 1 以 内 的 小 数 。 代 码 如 下 : 


myinput-np.array (train x) 
mytarget-np.array (d) 
mymax-np.max (d) 
tz-(0.1** (len (str (int (mymax)))))*5 
myinput-emyinput 
mytarget-tz*mytarget 














最 后 进行 训练 ， 训 练 时 可 加 入 未 知 样本 进行 测试 。 


# 对 未 知 样本 进行 测试 
myinputtest-[[6],[9], [17], [20]] 
testsimd- bpnet.sim(myinputtest) 
end x-np.array (myinputtest) 


testsimd/-tz 
end y-testsimd 

















经 过 9 次 训练 ， 达 到 了 训练 目标 ， 误 差 为 1.9713682268777952e-05。 对 神经 网 络 输 出 值 应 用 调整 系数 ， 将 其 输出 值 恢复 到 原 有 的 数值 范围 。 


程序 生成 了 拟 合 效果 图 (如 图 9-31 上 部 所 示 ) 及 误差 曲线 图 (如 图 9-31 下 部 所 示 ) 。 同 时 使 用 在 样本 空间 中 没有 出 现 的 部 分 测试 数据 6、9、17、20 作 为 神经 网 络 的 输入 ， 验 证 神经 网 络 的 训练 效果 和 拟 
合 效果 。 图 中 实心 圆圈 为 未 知 测试 数据 ， 即 : 使 用 次 数 为 6、9、17、20 时 容积 的 预测 值 ， 星 号 为 样本 数据 。 


0.7 
0.6 
0.5 
0.4 
0.3 
0.2 
0.1 
0.0 
0 | 
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图 9-31 钢 包 使 用 次 数 与 容积 的 神经 网 络 拟 合 


从 图 9-31 的 拟 合 效果 来 看 ， 样 本 数据 非常 接近 神经 网 络 拟 合 的 曲线 ， 说 明 曲 线 较 好 地 反映 了 随 着 使 用 次 数 的 增加 ， 容 积 的 增长 趋势 。 此 外 ， 对 在 样本 中 没 出 现 的 钢 包 使 用 次 数 6、9、17、20， 与 之 相关 
的 容积 预测 效果 不 错 。 


完整 的 Python 代码 如 下 : 


f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq.com 
#9-4.ру 

import numpy as np 
import pylab as pl 








import neurolab as nl 
print ЗЕЛА! 

#x 和 gd 样 本 初始 化 

train x =[] 

d=[] 

f = open("cubage.csv") 
try: 





f text = f.read( ) 
finally: 
f.close( ) 
X text-f text.split('Mn') 
for line i in xrange(0,len(x text)): 
line-x text[line i] i 
if line i»1 and len (line)»0: 
train x.append([]) 
hdata-line. split(',"') 
train x[line 1-2] .аррепа (float (hdata[0])) 
d.append ( [float (hdata[1])] 
yinput-np.array(train x) 
ytarget-np.array (d) 
ymax-np.max (d) 
z=(0.1** (len (str (int (mymax)))))*5 
myinput=myinput 
mytarget-tz*mytarget 
neca Dy np.max (myinput)] 
print u "An 正在 建立 神经 网 络 ' 
bpnet = nl.net. nd F([netminmax], [5, 1]) 
print и'\пў| 72 A 25. *P http: / /www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..."' 
err = dt mytarget, epochs=800, show=5, goal=0.0001) 
if err[len(err)-1]>0.0001: 
print u'\n 训 练 神经 网 络 失败 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...Mn' 
else: 
print u'\n 训 练 神经 网 络 完毕 ' 
pl.subplot (211) 
pl .plot (err) 
S dc number') 
ylabel('error (default SSE 
## 对 并 本 进行 测 让 
simd- bpnet.sim(myinput) 
temp x=myinput 
temp d-mytarget 
simd/-tz 
temp y-simd 
temp d/-tz 
# 对 未 知 样本 进行 测试 
myinputtest=[[6], [9], [17], [20]] 
testsimd= bpnet.sim(myinputtest) 
end x-np.array (myinputtest) 
testsimd/-tz 
end y-testsimd 
x max-np.max (tem 
x min-np.min (tem 
y max-np.max (tem 
y min-np.min (tem 
pl.subplot (212) 
1 (u"x") 
x min, x max) 
(u"y") 
y min, y max) 
= temp x 
-vemp y 
= temp d 
ot(lp xl, lp x2, 'g-) 
lot (end x, end y, 'ro') 
lot (lp x1,lp d,'b*') 
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9.2 ”线性 滤 激 
9.2.1 WAV 声音 文件 


是 由 物体 的 机 械 振动 而 形成 的 。 用 鼓 棒 敲 击 鼓 反 ， 于 是 鼓 皮 发 生 振 动 而 发 声 ; 吹 笛 时 笛 腔 内 的 空气 柱 发 生 振动 而 发 声 ; 把 音频 电流 送 入 扬声器 ， 扬 声 器 的 纸 盆 发 生 振 动 而 发 声 。 发 生 声音 的 振动 源 
叫 作 “ 声 源 ”， 由 声 源 发 出 的 声音 ， 必 须 通过 媒质 才能 传送 到 我 们 的 耳 水 中。 空气 是 最 常见 的 媒质 ， 如 水 、 金 属 、 木 材 等 媒质 都 能 传播 声音 。 


WAV 声 音 文件 为 Microsoft 公 司 开 发 的 一 种 记录 声音 的 文件 格式 ， 它 符合 RIFF (Resource Interchange File Format) 文件 规范 ， 音 频 格 式 未 经 过 压缩 ， 在 音质 方面 不 会 出 现 失真 的 情况 。 它 以 指定 频 
率 采 样 ， 比 如 每 秒 采样 44100 次 。 在 采集 声音 的 振动 状态 时 ， 它 会 使 用 模 / 数 转换 器 (A/D) 以 每 秒 上 万 次 的 速率 对 声波 进行 采样 ， 每 一 次 采样 都 记录 下 了 原始 模拟 声波 在 某 一 时 刻 的 状态 ， 采 样 的 结果 即 为 
样本 。 将 一 串 样 本 连接 起 来 ， 就 可 以 描述 一 段 声波 了 。 
9.2.2 ”线性 滤波 算法 过 程 

神经 网 络 既 可 以 进行 函数 拟 合 ， 也 能 对 波形 数据 进行 拟 合 。 下 面 将 输入 x 作 为 函数 的 自 变量 ， 将 神经 网 络 输出 的 数据 y 作 为 函数 fo 的 输出 ， 然 后 应 用 该 拟 合 功能 进行 一 个 线性 滤波 ， 以 实现 去 除 周 围 环 境 
的 噪音 ， 使 说 话 声音 更 清楚 。 

下 面 以 从 含有 音乐 的 语音 中 去 除 背 景 音 乐 为 例 进行 讲解 。 具 体 算法 过 程 如 下 : 


1) 读 取 该 机 器 学 习 算 法 必需 的 两 个 素材 文件 : 含有 背景 音乐 的 语音 和 部 分 背景 音乐 。 细 心 的 读者 一 定 会 问 ， 既 然 已 经 有 背景 音乐 这 个 文件 ， 那 么 直接 从 语音 的 波形 数据 减 去 背景 音乐 ， 这 样 就 完成 了 背 
景 音乐 的 过 滤 。 没 错 ， 但 是 不 能 直接 减 去 源 背 景 音乐 。 原 因 如 下 : 


在 对 声波 进行 采样 时 ， 昌 然 同 时 对 背景 音乐 和 语音 进行 了 采样 ， 但 采样 过 程 很 可 能 会 被 周边 的 音源 、 采 样 音 量 等 很 多 因素 干扰 ， 导 致 采样 形成 的 背景 音乐 波形 并 不 是 源 背 景 音 乐 的 波形 。 如 果 直 接 使 用 
源 背 景 音 乐 进 行 减 ， 将 会 导致 滤波 后 的 语音 文件 有 杂音 且 部 分 失真 。 我 们 要 做 的 是 干净 地 将 背景 音乐 剔除 。 


2) 采样 器 先 采 样 一 小 段 背 景 音乐 ， 然 后 再 采集 语音 文件 。 其 好 处 在 于 : 生成 了 经 过 采样 后 的 背景 音乐 样本 ， 这 些 样本 就 是 神经 网 络 拟 合 训练 样本 中 的 目标 输出 值 。 

3) 用 神经 网 络 进行 训练 ， 输 入 样本 为 源 背 景 音乐 中 相当 于 采样 背景 音乐 长 度 的 波形 数据 ， 输 出 目标 为 采样 器 开始 采集 的 小 段 背景 音乐 波形 数据 。 

4) 训练 达到 期 望 误 差 率 或 达到 最 大 训练 次 数 后 ， 将 源 背 景 音 乐 作为 未 知 样 本 数据 送 入 神经 网 络 ， 其 预测 输出 就 是 拟 合 后 的 采样 背景 音乐 。 

5) 将 混杂 有 背景 音乐 的 语音 文件 波形 数据 直接 减 去 拟 合 后 的 采样 背景 音乐 ， 得 到 去 除 背 景 音乐 的 纯净 语音 。 

自 适 应 线性 滤波 器 的 工作 原理 也 是 如 此 : 先 采集 一 段 背 景 噪声 ; 用 噪声 数据 进行 拟 合 ， 之 后 在 噪声 数据 和 背景 噪声 之 间 建 立 了 一 种 映射 关系 ; 最 后 ， 人 可 以 通过 该 系统 传送 语音 ， 说 话 周围 环境 产 


ЕУ? 景 噪 声 将 被 过 过 滤 。 


9.2.3 ”滤波 Python 实现 


下 面 用 Python 实现 上 述 步骤 。 


1) 读 取 声音 素材 ， 代 码 如 下 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#9-5.ру 

import numpy as np 

import wave 

import pylab as pl 

import copy 

print 'workinghttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
print "read wav datahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/or 
err-[] 

# 打开 WAV 文 档 

f = wave.open (r"speak.wav", "rb") 

fo = wave.open (r"wait jg.wav", "wb") 
fi-wave.open(r"back.wav", "rb") 

fend-wave.open(r"end jg.wav", "wb") 


# 读 取 波形 数据 





































































































# (nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams() 

nchannels, sampwidth, framerate, nframes = params[:4] 

str data = f.readframes (nframes) 

fi params-fi.getparams () 

fi nframes = fi params[3] 

fi str data-fi.readframes (fi nframes) 























# 将 波形 数据 转换 为 数组 ， 并 更 改 
print "update wav datahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0l 
wave data = np.fromstring(str data, dtype-np.short) 

fi wave data- np.fromstring(fi str data, dtype-np.short) 
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2) 复制 波形 ， 在 一 个 随机 的 基数 基础 上 ， 将 背景 音乐 的 振幅 (音量 ) 稍微 变动 一 下 ， 并 与 语音 合并 。 前 面 预 留 一 段 经 过 波形 调整 后 的 背景 音乐 ， 以 供 线性 神经 网 络 拟 合用 。 





emptywdata-np.zeros(framerate, dtype-np.short) 

new wave data-np.hstack((emptywdata,wave data,wave data,wave data,wave data,wave data,wave data,wave data,wave data)) 
wave data -copy.deepcopy (new wave data) 

nframes*=8 

nframes+=framerate/2 

temp wavedata-np.hstack((fi wave data,fi wave data))[:len(new wave data)] 
backrnd-np.random.rand(len(new wave data))*10-5 
раскраѕе=пр.гапаот. гапа () *2+1 

temp wavedata-temp мауедаса*раскраѕе+раскгпа 

new wave data-temp wavedatatnew wave data 

new wave data-np.array(new wave data) 

new wave data =new wave data.astype (wave data.dtype) 

new str data-new wave data.tostring() 









































3) 拟 合 数据 ， 去 除 背 景 音 乐 。 


jg wave data-copy.deepcopy (new wave data) 
jg temp wavedata-np.hstack((fi wave data,fi wave data))[ 
jg temp wavedata-jg temp wavedata[:len(new wave data)]*w 
jg wave data-jg wave data-jg temp wavedata 
for jg i in хгапде (0,1Іеп (39 wave data)): 
if abs(jg wave data[jg i])«500: 
jg wave data[jg i]-0 
jg wave data[:framerate]-0 
jg wave data =jg wave data.astype (wave data.dtype) 
jg str data-jg wave data.tostring() 
print "save output wavhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0l 
fend.setnchannels (nchannels) 
fend.setframerate (framerate) 
fend.setsampwidth (sampwidth) 
fend.writeframes (jg str data) 

















:len(new wave data)] 
[1]*w[0] 
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完整 的 代码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 





#9-5.ру 

import numpy as np 
import wave 

import pylab as pl 
import copy 





кй 


print 'workinghttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 

print "read wav datahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/or 
err-[] 

# 打开 WAV 文 档 

f = wave.open (r"speak.wav", "rb") 

fo = wave.open (r"wait jg.wav", "wb") 

fi-wave.open(r"back.wav", "rb") 

fend-wave.open(r"end jg.wav", "wb") 


# 读 取 波形 数据 































































































4 (nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams|() 

nchannels, sampwidth, framerate, nframes = params[:4] 

str data = f.readframes (nframes) 

fi params=fi.getparams () 

Fi nframes = fi params[3] 

fi str data-fi.readframes (fi nframes) 





























# 将 波形 数据 转换 为 数组 ， 并 更 改 
print "update wav datahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0l 
wave data = np.fromstring(str data, dtype-np.short) 

fi wave data- np.fromstring(fi str data, dtype-np.short) 

# 复 制 并 将 背景 音乐 的 振幅 (音量 ) 在 一 个 随机 的 基数 基础 上 稍微 变动 后 ， 与 语音 合并 

# 前 面 预 留 一 段 经 过 波形 调整 后 的 背景 音乐 ， 以 供 线性 神经 网 络 拟 合用 

emptywdata-np.zeros(framerate, dtype-np.short) 

new wave data-np.hstack((emptywdata,wave data,wave data,wave data,wave data,wave data,wave data,wave data,wave data)) 
wave data -copy.deepcopy (new wave data) 

nframes*-8 i m 

nframes-4-framerate/2 

temp wavedata-np.hstack((fi wave data,fi wave data))[:len(new wave data)] 
backrnd-np.random.rand(len(new wave data))*10-5 

backbase-np.random.rand()*2-41 
temp wavedata-temp wavedata*backbase-*backrnd 

new wave data-temp wavedatatnew wave data 

new wave data-np.array(new wave data) 

new wave data -new wave data.astype (wave data.dtype) 
new str data-new wave data.tostring() 

# 写 波形 数据 参数 
print "save mix wav fileshttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/0 
fo.setnchannels (nchannels) 
fo.setframerate (framerate) 
fo.setsampwidth (sampwidth) 
Fo.writeframes (new str data) 
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р=1 
a0-5e-1 
a-0.0 
r-1.5 
x-[] 
-[] 





ii-0 





for audio i in xrange (0,1 








i 














1f 


x.append([]) 


x[ii].append(1 
x[ii].append (і 


— 





framerate/2): 
Fi wave data[audio i]!-0.: 


fi wave data[audio i]) 


d.append(new wave data[audio i]) 


iil 











11>100: 
break 


x-np.array (x) 
d-np.array (d) 
w-np.random.rand(2)*np.mean (х) #пр.аггау ([6,0]) 
expect e-15 
maxtrycount-10000 
mycount-0 

def sgn(v): 


return v 








def ge 








t v(myw,myx): 


return sgn (np. dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 


mye-get e(oldw,myx,myd) 


a-a0/ (1+float (mycount) /r) 








return (oj 





def get е (myw,myx,myd): 
return myd-get v (myw,myx) 


while 


print 





True: 
mye-0. 
i-0 





for xn in x: 


| dw--a*mye*myx,mye) 


w,e-neww (w,d[i],xn,a) 


і+=1 
myed 





mye-np.sqrt (mye) 
mycount4-1l 
err.append (mye) 


print 
print 
f abs( 


тт « [9 BG 
w:[Sf,$ 





Ct ct 


H- 














A 
ЦЕ 9. 


print u" 第 $ 





误差 : $f"%mye 
xpect e or mycount»maxtrycount:break 
0],w[1]) 


# 复 制 并 除去 背景 声音 


jg wave da 
jg temp wavedata-np.hstack( (і Ж ) 1 

jg temp wavedata-jg temp wavedata[:len(new wave даба) ] *и[1]+%[0] 
ta-jg wave data-jg temp wavedata 

for jg i in хгапде (0,1Іеп (39 wave data)): 





jg wave da 





r—pow (e, 2) 














i 


39 wave data[ 
jg wave dai 
jg str data-jg wave data. 
"save output wavht 





print 
fend. 
fend. 














f арѕ (39 wave da! 
jg wave data[jg i]-0 
:framerate]-0 
ta —jg wave data.astype (wave data.dtype) 
tostring|() 











setnchannels (nchannels) 











setframerate (framerate) 





fend. 














setsampwidth (sampwidth) 











fend.writeframes 








# 绘制 波形 


time = np.arange(0, nframes) 





(jg str data) 





wave data.shape = -1, 2 
data — wave data.T 





. subplot (321) 






































label ("time 





F 绘制 波形 


new w 





ot(time, wave da 


p 

p lot(time, wave data[0]) 
pl.subplot (322) 
p 

p 





(seconds) " 


ave data.shape - -1, 2 
ave data =new wave data.T 


.Subplot (323) 









































jg wave da! 
jg wave dal 












































(seconds) ") 


ta.shape = -1, 2 
ta —jg wave data.T 


* 


lot(time,new wave data[0]) 
. subplot (324) 
lot (time, new wave data[1], c="g") 
label ("time 


fi wave da 


次 调整 后 的 权 值 : "%mycount 


ta-copy.deepcopy (new wave data) 








ta[jg i1)«500: 


tp://www.hzcourse.com/resource/readl 


(1.0 / 1 


ta[1] I c="g") 


pl.subplot (325) 

pl.plot (time, jg wave data[0]) 
pl.subplot (326) 

pl.plot (time, jg wave data[1], c="g") 
pl.xlabel("time (seconds)") 

pl.show() 


ta,fi wave data) 





:len(new wave data)] 











I 














framerate) 
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如 图 9-32 所 示 是 程序 运行 完毕 后 生成 的 效果 图 。 最 上 面 的 两 张 图 是 无 背景 音乐 语音 文件 的 两 个 声 道 的 波形 图 ， 中 间 是 混杂 了 背景 音乐 的 语音 文件 ， 下 面 是 经 过 线性 滤波 后 生成 的 纯净 语音 文件 。 


观察 图 9-32 可 看 出 ， 线 性 滤波 的 效果 是 不 错 的 。 读 者 可 以 从 本 书 的 资源 包 中 下 载 相 关 程 序 ， 执 行 后 ， 


用 音箱 播放 滤波 后 的 语音 ， 听 听 效 果 ， 是 否 还 能 听 出 


Аека 
FER 


音乐 。 


13 000 15 000 
10 000 10 000 

5 000 5 000 

0 0 

—5 000 —5 000 
一 10 000 一 10 000 











23090072 4 6 8 10 2 14 16 “MO 2 4 6 8 10 12 14 16 
20 000 20 000 
15 000 | 15 000 
10 000 10 000 Ek. 
5 000 5 000 
—5 000 —5 000 


一 10 000 一 10 000 





E gM 
15 0000 2 4 6 S8 10 12 14 16 15 0009 2 4 6 8 10 12 14 16 
10 000 10 000 
5 000 5 000 
0 0 
—5 000 —5 000 
—10 000 —10 000 


一 13 000, 


o 2 4 6 8 10121416 ? 


0 2 4 6 8 10 12 14 16 
time (seconds) 


图 9-32 ”线性 滤波 效果 


93 ”数据 或 曲 绪 平 滑 


9.3.1 平滑 概述 


在 介绍 平滑 的 概念 之 前 ， 先 来 看 一 组 数据 ， 表 9-4 是 某 虚 拟 商品 X 连 续 21 天 的 销量 。 
表 9-4 虚拟 商品 X 连 续 21 天 的 销量 
TT To Te pe pe ps pe pe s ep 2: 
mE пзе [a [rss [os iss [122 ur [ss [aa [27s [232 [267 [222 [187 [195 [4s [о [15 


现 绘制 该 虚拟 商品 X 的 销量 图 (如 图 9-33 所 示 ) ，R 代 码 如 下 : 






> 
x«-c(12,123,54,176,121,134,198,155,122,111,133,244,278,232,2671,222,187,193,245,110, 132) 
> plot (x,type-"o",col-"blue",xlab-" X&",ylab-"Zfx") 








初步 观察 图 9-33， 曲 线 波 折 较 多 ， 销 量 不 稳定 ， 仔 细 观 察 才 能 发 现 销量 在 整体 走高 。 再 观察 图 9-34， 它 是 将 图 9-33 平 滑 处 理 后 生成 的 销量 走势 图 。 
观察 图 9-34， 曲 线 波 动 较 小 ， 整 体 增长 趋势 一 目 了 然 ， 销 量 连续 经 过 了 两 次 欧 升 ， 虽 然 每 次 欧 升 后 有 少量 回落 ， 但 销量 仍 在 增长 中 。 


现在 正式 介绍 平滑 的 概念 ， 数 据 或 曲线 平滑 是 通过 建立 近似 函数 来 发 现 数据 中 的 主要 模式 的 ， 去 除 噪音 、 结 构 细节 或 瞬时 现象 ， 减 少 不 必 要 的 数据 波动 ， 从 而 实现 数据 集 的 平滑 。 平 滑 过 程 中 会 修改 数 
据点 ， 降 低 由 噪音 数据 点 产生 的 影响 ， 而 低 于 毗邻 数据 点 的 点 则 被 提升 ， 从 而 得 到 一 个 更 平滑 的 数据 序列 。 
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99-33 ”虚拟 商品 的 销量 图 
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图 9-34 ”经 过 平滑 处 理 后 的 销量 走势 图 


9.3.2 ”移动 平均 


移动 平均 (Moving Average, MA) ， 又 称 “ 移 动 平 均线 ”， 简 称 均 线 ， 是 数据 分 析 中 一 种 分 析 时 间 序 列 数 据 的 工具 。 最 常见 的 是 利用 股价 、 交 易 量 等 变量 计算 出 移动 平均 。 移 动 平均 可 抚 平 短期 波 
动 ， 反 映 出 长 期 趋势 或 周期 ， 在 数学 上 ， 移 动 平均 可 视 为 一 种 卷 积 。 


1. 简 单 移动 平均 


简单 移动 平均 是 某 变量 之 前 n 个 数值 的 未 作 加 权 的 算术 平均 。 比 如 ， 设 某 股票 的 预测 收市 价 为 SMA， 该 股票 前 n 日 的 收市 价 为 p1 至 pn， 则 预测 收市 价 的 计算 方式 如 下 : 


ppt + р, 


n 


上 述 公 式 的 计算 效率 较 高 ， 原 因 在 于 : 计算 连续 的 数值 时 ， 若 有 一 个 新 的 数值 加 入 ， 可 将 一 个 旧 的 数值 吻 出 ， 无 须 每 次 都 重新 将 数值 逐个 加 起 来 ， 如 下 面 的 公式 所 示 : 


SMA an~ SMA on- Pı 4- Pn 


n n 


ТЕКШЕР, AA fiter HTA, SCHÜBEBEENUSEIJEUA, AELA RN: 

1) filter 参 数 (该 参数 指定 了 参加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 1/n，n 为 前 n 期 。 

2) method 参 数 指定 为 convolution， 表 示 使 用 移动 平均 法 ， 并 将 sides 参 数 设置 为 1， 表 示 使 用 单 边 卷 积 。 

3) filter 函 数 对 数据 进行 预测 时 ， 参 与 计算 的 前 期 数据 不 但 包括 前 n-1 期 的 数据 ， 还 包括 当前 数据 ， 预 测 值 的 计算 公式 如 下 : 
ylt]=fl1]*x[s] + f|2]*x[s-1] + f[5]*x[t-2]+-- + fln-1]*x[t-(n-1)] 


以 上 公式 中 ，t 为 时 间 ，ff 为 该 时 间 点 数据 的 权重 值 。 


以 表 9-4 所 示 的 X 商 品 的 销量 为 例 ， 设 当前 时 间 点 t 为 3， 期 数 n 为 2， 权 重 为 1/2 (BD0.5) ，x 为 商品 销量 数组 ， 提 取 前 n 期 的 数据 ， 预 测 当 前 时 间 点 的 平滑 值 ， 其 计算 方式 如 下 : 
y[3]=x[2] X 0.5+x[3] X 0.5=123 х0.5+54 x 0.5=88.5 


下 面 编写 R 代 码 ， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-35 所 示 。 


x«-c(12,123,54,176,121,134,198,155,122,111,133,244,278,232,267,222,187,193,245, 110, 132) 
> plot (x,type-"o",col-"blue",xlab-" K",ylab-" 4f x") 

> y= filter(x, filter-rep(1/3,3),method = "convolution",sides-1) 

> lines (у, сої1="геа") 

> points (y,pch-8, сої1="геа") 




















观察 图 9-35， 平 滑 效 果 不 错 ， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 曲 线 及 空心 圆 点 表示 原 数据 。 上 述 R 程 序 通 过 将 fliter 参 数 设 为 rep(1/3，3)， 使 每 个 时 间 点 的 权 值 均 为 1/3， 且 前 期 数据 取 前 3 天 的 
数据 ， 从 而 生成 当天 的 平滑 数据 值 。 
2. 加 权 移 动 平 均 


加 权 移 动 平 均 给 固定 跨越 期 限 内 的 每 个 变量 值 以 不 相等 的 权重 ， 其 原理 是 : 历史 各 期 产品 需求 的 数据 信息 对 预测 未 来 期 内 的 需求 量 的 作用 是 不 一 样 的 ， 除 了 以 n 为 周期 的 周期 性 变化 外 ， 远 离 目标 期 的 变 
量 值 的 影响 力 相对 较 低 ， 故 应 给 予 较 低 的 权重 。 简 单 的 移动 平均 法 实质 上 也 是 加 权 移 动 平均 ， 只 不 过 它 是 各 元 素 的 权重 都 相等 。 


加 权 移 动 平均 的 计算 公式 如 下 : 
y[c-1]=a, X х[-1]++а› X x[t-2]+a; X x[t-3]+ +a, X x[t-n] 
上 式 中 ，a 为 权 值 ，x 为 数据 ，y 为 预测 值 ，n 为 参与 计算 的 数据 期 数 ， 且 权 值 之 和 为 1。 
在 R 语 言 中 ， 可 调用 filter 函 数 进行 线性 过 滤 ， 实 现 加 权 移 动 平 均 算法 ， 使 用 时 需要 注意 以 下 事项 : 
- filtet 参 数 (该 参数 指定 了 参加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 参与 计算 时 间 点 的 各 自 权 重 。 
: method 参 数 指定 为 convolution， 表 示 使 用 移动 平均 法 ， 并 将 sides 参 数 设 置 为 1， 表 示 使 用 单 边 卷 积 。 
- fltet 吕 数 对 数据 进行 预测 时 ， 参 与 计算 的 前 期 数据 不 但 包括 前 n-1 期 的 数据 ， 还 包括 当前 数据 ， 预 测 值 的 计算 公式 如 下 : 
у =] x x[t]+f[2] X x[t-1]+f[3] X x[t-2]+ -+ f[n-1] X x[t-(n-1)] 
以 上 公式 中 ，t 为 时 间 ，f 为 该 时 间 点 数据 的 权重 值 。 


以 表 9-4 所 示 的 X 商 品 的 销量 为 例 ， 设 当前 时 间 点 t 为 5， 期 数 n 为 3， 当 前 时 间 点 权重 为 0.65， 前 1 个 时 间 点 的 权重 为 0.25， 前 2 个 时 间 点 的 权重 为 0.1，x 为 商品 销量 数组 ， 提 取 前 n 期 的 数据 ， 预 测 当前 时 
间 点 的 平滑 值 ， 其 计算 方式 如 下 : 


y[5]=x[5] X 0.65+x[4] X 0.25+x[3] X 0.1=121 X 0.65--176 X 0.25+54X0.1=128.05 


下 面 编写 R 代 码 ， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-36 所 示 。 





x«-c(12,123,54,176,121,134,198,155,122,111,133,244,278,232,267,222,187,193,245, 110, 132) 
> plot (x, type-"o",col-"blue",xlab-" K",ylab-"4f x") 
> у= filter(x, filter-c(0.65,0.25,0.1),method = "convolution",sides-1) 
> lines (у, со1="геа") 
> points (у, pch=8, со1="геа") 


























观察 图 9-36， 平 滑 效 果 不 错 ， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 曲 线 以 及 空心 圆 点 表示 原 数据 。 上 述 R 程 序 通 过 将 filter 参 数 设 为 c(0.65，0.25，0.1)， 将 从 预测 时 间 点 开始 依次 向 前 的 3 个 时 间 点 
的 权 值 分 别 设置 为 0.65、0.25、0.1， 从 而 生成 当天 的 平滑 数据 值 。 
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图 9-36 “加权 移动 平均 


此 外 ， 还 可 输出 y 值 ， 从 以 下 输出 结果 可 以 看 出 ， 第 5 个 时 间 点 的 平滑 值 是 128.05， 与 前 面 手工 计算 的 一 致 。 





























2y 
Time Series: 
Start = 1 
End - 21 
Frequency - 1 
[1] NA NA 67.05 140.20 128.05 134.95 174.30 163.65 137.85 118.15 
[11] 126.40 202.95 255.00 244.70 259.35 234.25 203.75 194.40 226.20 152.05 
[21] 137.80 
3. 双 边 卷 积 


双边 卷 积 算法 与 简单 移动 平均 法 、 加 权 移 动 平 均 法 相似 ， 不 同 之 处 在 于 其 计算 平均 值 的 依据 不 仅 包 括 以 前 时 间 点 的 数据 ， 而 且 还 包括 以 后 时 间 点 的 数据 。 
在 R 语 言 中 ， 可 调用 filter 函 数 进 行 线性 过 滤 ， 实 现 双边 卷 积 算法 ， 使 用 时 需要 注意 以 下 事项 : 
. filter 参数 (该 参数 指定 了 参加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 参与 计算 时 间 点 各 自 的 权重 。 
method 参数 指 定 为 convolution， 表 示 使 用 移动 平均 法 ， 并 将 sides 参 数 设 置 为 2， 表 示 使 用 双边 卷 积 。 
: fltet 涵 数 对 数据 进行 预测 时 ， 参 与 计算 的 数据 不 但 包括 前 n-1 期 的 数据 和 当前 数据 ， 还 包括 以 后 时 间 点 的 数据 。 以 期 数 是 5 为 例 ， 计 算 当 前 时 间 点 t 的 预测 值 y 则 ， 公 式 如 下 : 
y[d- £1] X x[t+2]+f[2] X x[t+1]+f[3] X x[t]+f[4] X x[t-1]+f[5] x x[t-2] 
以 上 公式 中 ，t 为 时 间 ，f 为 该 时 间 点 数据 的 权重 值 。 


以 表 9-4 所 示 的 X 商 品 的 销量 为 例 ， 设 当前 时 间 点 t 为 5， 期 数 n 为 5， 当 前 时 间 点 权重 为 0.5， 前 1 个 时 间 点 的 权重 为 0.15， 前 2 个 时 间 点 的 权重 为 0.1， 后 1 个 时 间 点 的 权重 为 0.15， 后 2 个 时 间 点 的 权重 为 
0.1，x 为 商品 销量 数组 ， 提 取 前 n-2 期 、 后 n-2 期 及 第 n 期 的 数据 ， 预 测 当前 时 间 点 的 平滑 值 ， 计 算 方式 如 下 : 


y[5]=x[7] X 0.1--x[6] X 0.15+x[5] X 0.5--x[4] X 0.15--x[3] X 0.1 
=198 х 0.1+134 X0.15-121X0.54176 X 0.15454 X 0.1 


=132.2 


下 面 编写 R 代 码 ， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-37 所 示 。 














> 
х<-с(12,123,54,176,121,134,198,155,122,111,133,244,278,232,267,222,187,193,245,110,132) 
> plot (x, Lype="o", co] "plue", x] ab-"X",ylab-"4fx") 

> y= filter (x, Tp c(0.1,0.15,0.5,0.15,0.1) ,method = "convolution",sides-2) 























> lines (у, со1="геа") 
> points (y,pch-8, со1="геа") 


观察 图 9-37， 平 滑 效 果 不 错 ， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 曲 线 及 空心 圆 点 表示 原 数据 。 上 述 R 程 序 通过 将 filter 参 数 设 为 c(0.1，0.15，0.5，0.15， 


时 间 点 及 之 前 2 个 时 间 点 的 权 值 分 别 设置 为 0.1、0.15、0.5、0.15、0.1， 从 而 生成 当天 的 平滑 数据 值 。 


此 外 ， 还 可 输出 y 值 ， 从 以 下 输出 结果 可 以 看 出 ， 第 5 个 时 间 点 的 平滑 值 是 132.20， 与 前 面 手 工 计算 的 一 致 。 





> c(y) 
[1] NA NA 85.15 139.95 132.20 147.95 166.65 150.00 134.00 133.65 159.75 217.95 250.40 244.35 248.10 221.60 206.95 
[18] 194.50 199.85 NA NA 


9.3.3 ”递归 线性 过 渡 


递归 线性 过 滤 相 当 于 自 回归 法 ， 在 Ri 语言 中 ， 可 调用 filter 贸 数 进行 递归 线性 过 滤 ， 使 用 时 需要 注意 以 下 事项 : 
"filter 参数 (该 参数 指定 加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 参与 计算 时 间 点 各 自 的 权重 。 


- method 参 数 指 定 为 fecutsive， 表 示 使 用 递归 线性 过 滤 。 


: filter 函数 对 数据 进行 预测 时 ， 参 与 计算 的 数据 包括 当前 时 间 点 的 数据 和 以 前 n-1 个 时 间 点 的 预测 值 。 当 前 时 间 点 t 的 预测 值 y 轩 的 计算 公式 如 下 : 


ylt]=xlt]+ fft] X y[t-1]* t f[n-1] X y[t-(n-1)] 


以 上 公式 中 ，t 为 时 间 ，ff 为 该 时 间 点 数据 的 权重 值 。 


0.1)， 将 从 预测 时 间 点 后 2 个 时 间 点 、 当 前 


以 表 9-4 所 示 的 X 商 品 的 销量 为 例 ， 设 当前 时 间 点 t 为 3， 期 数 n 为 2， 前 1 个 时 间 点 的 权重 为 0.1， 前 2 个 时 间 点 的 权重 为 0.05，x 为 商品 销量 数组 ， 提 取 前 n-2 期 预测 值 y 及 第 n 期 值 x， 预 测 当前 时 间 点 的 平滑 


值 ， 计 算 方式 如 下 : 


~ 


y[1]=x[!]=12 
y[2]=x[2]+x[1]*0.1=124.2y[3]=x[3]+y[2]*0.1+y[1]*0.05 
=54+124.2*0.1+12*0.05 


=67.02 


下 面 编写 R 代 码 ， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-38 所 示 。 





























> 
x«-c(12,123,54,176,121,134,198,155,122,111,133,244,278,232,2677,222,187,193,245,110, 132) 
» plot (x,type-"o", col "blue", xlab-"X", ylab- "Ar €", ylim-c(1,400)) 

> y«-filter (x, ТЇ а= c(0.1,0.05),method = "recursive") 


> lines (y,col-"red") 
> points (y,pch-8, col-"red") 


观察 图 9-38， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 曲 线 及 空心 圆 点 表示 原 数 据 。 上 述 R 程 序 通 过 将 filter 参 数 设 为 c(0.1，0.05)， 将 以 前 2 个 时 间 点 的 权 值 分 别 设置 为 0.1 和 0.05， 从 而 生成 当天 的 平滑 


数据 值 。 


20 


5 


l 


u^ 





图 9-37 “双边 卷 积 
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99-38 ”递归 线性 过 滤 


此 外 ， 还 可 输出 y 值 ， 从 以 下 输出 结果 可 以 看 出 ， 第 3 个 时 间 点 的 平滑 值 是 67.02， 与 前 面 手工 计算 的 一 致 。 


> c(y) 

] 12.0000 124.2000 67.0200 188.9120 143.2422 157.7698 220.9391 184.9824 
] 151.5452 135.4036 154.1176 266.1819 312.3241 276.5415 310.2704 266.8541 
] 


229.1989 229.2626 279.3862 149.4018 160.9095 
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9.34 ”指数 平滑 


指数 平滑 (Exponential Smoothing, ES) 法 是 布朗 (Robert G.Brown) 所 提出 的 ， 布 衣 认 为 时 间 序列 的 态势 具有 稳定 性 或 规则 性 ， 所 以 时 间 序 列 可 被 合理 地 顺势 推 延 ， 最 近 的 过 去 数据 趋势 ， 在 某 
种 程度 上 会 持续 到 未 来 ， 因 此 将 较 大 的 权重 放 在 最 近 的 资料 上 。 指 数 平 滑 法 是 在 移动 平均 法 的 基础 上 发 展 起 来 的 一 种 时 间 序列 分 析 预 测 法 ， 它 是 通过 计算 指数 平滑 值 ， 配 合 一 定 的 时 间 序列 预测 模型 对 现象 
的 未 来 进行 预测 ， 其 原理 是 任 一 期 的 指数 平滑 值 都 是 本 期 实际 观察 值 与 前 一 期 指数 平滑 值 的 加 权 平 均 。 


根据 平滑 次 数 不 同 ， 指 数 平滑 法 分 为 : 一 次 指数 平滑 法 、 二 次 指数 平滑 法 和 三 次 指数 平滑 法 等 。 一 次 指数 平滑 法 是 根据 前 期 的 实测 数 和 预测 数 ， 以 一 次 平滑 系数 为 权重 ， 进 行 加 权 平 均 ， 从 而 预测 未 来 
时 间 趋 势 的 方法 ; 二 次 指数 平滑 法 是 对 一 次 指数 平滑 的 再 平滑 ， 它 保留 并 更 新 了 平滑 后 的 信号 及 平滑 后 的 趋势 ， 它 增加 了 二 次 趋势 平滑 系数 ; 三 次 指数 平滑 法 是 在 二 次 平滑 的 基础 上 再 添加 第 三 个 量 ， 用 来 
描述 周期 性 ， 它 是 二 次 平滑 的 再 平滑 ， 增 加 了 三 次 周期 平滑 系数 。 
1. 二 次 指数 平滑 
在 R 语 言 中 ， 可 调用 HoltWinters 国 数 进行 二 次 指数 平滑 ， 使 用 时 需要 注意 以 下 事项 : 
.alpha 参数 指定 一 次 平滑 系数 ，beta 参 数 指定 二 次 平滑 系数 ，gamma 参 数 设 置 为 FALSE 表 示 不 进行 三 次 平滑 ， 如 果 不 指定 平滑 系数 ，HoltWintetrs 函 数 将 自动 计算 最 优 系数 。 
: 在 调用 HoltWinters 函 数 前 ， 需 要 使 用 苹 函 数 将 数据 转化 为 时 间 序 列 向 量 。ts 函 数 主 要 有 以 下 参数 : 
: Frequency: 周期 频率 
бш: 开始 时 间 点 
下 面 编写 R 代 码 ， 对 表 9-5 所 示 的 虚拟 商品 Y 的 销量 数据 进行 平滑 。 


表 9-5 虚拟 商品 Y 连 续 21 天 的 销量 





首先 ， 载 入 数据 ， 然 后 转 成 时 间 序 列 。 





> 
x<-c(42,153,54,176,61,134,98,155,82,111,63,244,178,232,167,222,107,193,115,190,132) 
> ts(x,frequency-7,start-c(1,1))-»sales.x 
> sales.x 
Time Series: 
Start = c(1, 1) 
End = c(3, 7) 
Frequency = 7 
[1] 42 153 54 176 61 134 98 155 82 111 63 244 178 232 167 222 107 193 
[19] 115 190 132 























观察 sales.x 的 输出 结果 ， 表 9-5 所 示 为 21 天 的 销售 数据 ， 指 定 周 期 为 7 天 后 ， 即 形成 以 周 为 周期 的 时 间 序 列 ，Start 表 示 数 据 的 周期 起 始 为 c(1，1)， 即 : 第 1 周 的 第 1 天 ，End 表 示 数 据 的 周期 终止 为 
c3, 7), BD: 第 3 周 的 第 7 天 。 


然后 ， 进 行 二 次 平滑 。 








> HoltWinters (Sales.X gamma-FALSE)-»mysol 





> mysol 

Holt-Winters exponential smoothing with trend and without seasonal component. 
Call: 

HoltWinters(x = sales.x, gamma = FALSE) 





Smoothing parameters: 
alpha: 0.4649865 
beta : 0.8894224 

gamma: FALSE 
Coefficients: 

[,1] 

a 143.102068 
b 2.827244 
> 





























观察 mysol 输 出 ，HoltWinters 函 数 计算 出 最 佳 平滑 系数 ， 其 中 ， 一 次 指数 平滑 系数 为 0.4649865， 二 次 指数 平滑 系数 为 0.8894224。 


最 后 ， 绘 制 效果 图 (如 图 9-39 所 示 ) 。 





> plot (sales.x,col-"blue", ylimec (1,500),xlimec(1,5),xlab-"J]",ylab-"Zf3") 
> lines (mysolSfitted[,1],col-2"red",type-"Db") 














观察 图 9-39， 蓝 色 实 线 是 原 数 据 ， 红 色 虚 线 是 平滑 拟 合 值 。 
2. 三 次 指数 平滑 
在 R 语 言 中 ， 可 调用 HoltWinters 函 数 进 行 三 次 指数 平滑 ， 使 用 时 需要 注意 以 下 事项 : 
.alpha 参数 指定 一 次 平滑 系数 ，beta 参 数 指 定 二 次 平滑 系数 ，gamma 参 数 指 定 三 次 平滑 系数 。 
: HoltWintets 函 数 计算 预测 值 的 方式 有 如 下 两 种 。 


第 一 种 是 累 乘 法 ， 计 算 公式 如 下 : 


a[r-e(Y]r/spr-p *( -o)a [r7 1 pP5[r71]) 


b[r]-P(alr]-a[r7 1p (Q -5)5[r71] 
spr-»ya m ar]a-»st-p] 
Yhat[t-h ]-(a|f]--h X b[t]) X s[t-p+1+(h-1)mod p] 


400 500 


销量 
300 





图 9-39 ”二 次 指数 平滑 


其 中 ，a、B、Y 分 别 为 一 次 、 二 次 、 三 次 平滑 系数 ，Yhat 为 预测 值 。 
第 二 种 是 累加 法 ， 计 算 公式 如 下 : 
a[r]-a(Y]r]-s[r-pp * (1-0) (a[171]*-5[171]) 
b[t]-p(a[r]-a[r-1]) *(1-5)5[r-1] 
5[П=у(1[г]-а[])+(1—-у)5[—р] 
Yhat[t+h]=(a[t]+h X b[t]) X s[t-p+1+(h-1)mod p] 
由 seasonal 参 数 指定 三 次 平滑 的 方式 ， 分 别 为 additive (累加 方式 ) . multiplicative ( 累 乘 方式 ) ， 默 认为 additvie。 
- 调用 HoltWinters 函 数 前 ， 需 要 使 用 全 函数 将 数据 转化 为 时 间 序 列 向 量 。fts 函 数 主要 有 以 下 参数 : 
: Frequency: 周期 频率 
© Start: 开始 时 间 点 
下 面 编写 R 代 码 ， 对 表 9-4 所 示 的 虚拟 商品 X 的 销量 数据 进行 平滑 。 


首先 ， 载 入 数据 ， 然 后 转 成 时 间 序 列 。 





> 
x«-c(12,123,54,176,121,134,198,155,122,111,133,244,278,232,2677,222,187,193,245,110, 132) 
> ts(x,frequency-7,start-c(1,1))-»sales.x 
» sales.x 
Time Series: 
Start = c(1, 1) 
End = c(3, 7) 














[1] 12 123 54 176 121 134 198 155 122 111 133 244 278 232 267 222 
[17] 187 193 245 110 132 

















观察 sales.x 的 输出 结果 ， 表 9-4 所 示 为 21 天 的 销售 数据 ， 指 定 周期 为 7 天 后 ， 即 形成 以 周 为 周期 的 时 间 序 列 ，start 表 示 数 据 的 周期 起 始 为 c(1，1)， 即 : 第 1 周 的 第 1 天 ，End 表 示 数 据 的 周期 终止 为 


c(3，7)， 即 : 第 3 周 的 第 7 天 。 


然后 ， 进 行 三 次 平滑 。 








> HoltWinters (Sales .X) ->mysol 

> mysol 

Holt-Winters exponential smoothing with trend and additive seasonal component. 
Call: 

HoltWinters (х = sales.x) 

Smoothing parameters: 

alpha: 0.6264084 

















beta : 0 

gamma: 1 

Coefficients 
[,1] 





а 122.270966 
b 8.447279 
51 36.581455 
52 -20.578516 
53 -57.187646 
54 -26.947654 
55 24.695147 
56 -30.083230 
57 9.729034 











观察 mysol 输 出 ，HoltWinters 函 数 计算 出 最 佳 平滑 系数 ， 其 中 ， 一 次 指数 平滑 系数 为 0.6264084， 二 次 指数 平滑 系数 为 0， 三 次 指数 平滑 系数 为 1。 此 外 ， 商 品 X 的 销量 周期 系数 为 s1 到 s7。 


再 绘制 效果 图 ， 如 图 9-40 所 示 。 





> plot (sales.x,col-"blue",ylimec(1,500),xlimec(1,5),xlab-"J]",ylab-"Zf3") 
> lines (mysolSfitted[,1],col-2"red",type-"Db") 

















观察 图 9-40， 蓝 色 实 线 是 原 数 据 ， 红 色 虚 线 是 平滑 拟 合 值 。 


察 
最 后 ， 对 以 后 的 趋势 进行 预测 。 表 9-4 所 示 的 数据 是 虚拟 商品 X21 天 的 销量 ， 现 在 对 以 后 14 天 的 销量 进行 预测 ， 预 测 效 果 如 图 9-41 所 示 。 








> predict(mysol, 14, prediction.interval = ТКОЕ) ->р 
> plot (mysol,p, xlab-"J]",ylab-"4f",xlimec (1,7) ,main=" 销 量 预测 ") 








观察 图 9-41， 黑 色 线 为 原 数据 ， 红 色 线 为 平滑 拟 合 值 。 虚 线 右 侧 的 部 分 是 以 后 14 天 的 虚拟 商品 X 的 预测 销量 部 分 ， 该 部 分 的 中 间 红 线 为 预测 走势 曲线 ， 上 方 和 下 方 曲线 分 别 为 预测 置信 区 间 的 上 限 和 下 
限 。 
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图 9-40 三 次 指数 平滑 
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94 小 结 


本 章 首先 介绍 了 数据 拟 合 的 技术 。 数 据 拟 合 是 通过 理想 的 假设 方程 来 拟 合 数 据 的 ， 得 到 这 个 假设 方程 主要 有 两 种 方式 : 第 一 ， 通 过 观察 样本 数据 点 的 分 布 来 估计 所 属国 数 的 图 像 ， 在 拟 合 后 计算 相关 统 
计 指 标 ， 评 估 拟 合 的 效果 ; 第 二 ， 以 假设 方程 的 自 变量 为 输入 样本 ， 以 变量 为 样本 的 目标 输出 ， 通 过 神经 网 络 进行 训练 ， 以 权 值 矩 阵 和 众多 神经 元 的 激活 函数 等 神经 网 络 组 件 完 成 输入 到 输出 的 映射 ， 其 实 
质 是 建立 一 个 更 复杂 的 拟 合 模型 来 实现 数据 拟 合 。 


然后 讲解 了 移动 平均 法 、 递 归 线性 过 滤 法 、 指 数 平滑 法 等 平滑 方法 。 数 据 或 曲线 平滑 通过 建立 近似 函数 发 现 数据 中 的 主要 模式 ， 去 除 噪声 、 结 构 细节 或 瞬时 现象 ， 减 少 不 必 要 的 数据 波动 ， 从 而 实现 数 
据 集 的 平滑 。 


(1) 假设 有 两 类 数据 ， 下 面 是 这 两 类 数据 的 分 布 散 点 图 ， 从 图 像 上 分 析 拟 合 这 些 数据 的 函数 方程 。 
(2) 编写 Python 代码 实现 多 层 感 知 器 ， 拟 合 y=0.7sin(X)+0.3cos(X) 函 数 。 


(3) 本 章 讲解 了 通过 线性 滤波 去 除 背 景 音乐 的 方法 。 请 尝试 用 非 线 性 滤波 解决 这 个 问题 ， 即 : 使 用 多 层 感 知 器 对 背景 音乐 进行 拟 合 ， 然 后 将 它 从 语音 文件 中 去 除 。 
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第 10 章 ”图 像 算 法 案例 


机 器 学 习 算 法 可 对 数字 图 像 进行 加 工 和 处 理 ， 以 便 进一步 进行 特征 提取 的 工作 ， 主 要 目标 为 从 图 像 中 挖掘 所 需要 的 知识 和 信息 ， 主 要 解决 图 像 铅 化 、 图 像 除 噪 、 图 像 增强 、 图 像 分 类 、 图 像 识 别 等 问 
题 ， 其 算法 过 程 主要 包括 : 图 像 获取 、 预 处 理 、 特 征 提取 、 加 工分 析 、 提 取 知 识 等 。 


10.1 图 像 边缘 算法 


10.1.1 数字 图 像 基础 


再 次 复习 一 下 数字 图 像 的 知识 。 数 字 图 像 在 计算 机 中 保存 为 二 维 整 数 数组 ， 数 组 中 元 素 是 二 维 图 像 中 的 像素 ， 每 个 像素 都 用 有 限 数值 表示 ， 对 应 于 二 维 空间 中 一 个 特定 的 位 置 。 图 像 是 由 二 维 像素 点 组 
成 的 矩阵， 通常 每 个 像素 点 由 3 个 元 素 组 成 一 红 、 绿 、 蓝 ， 这 3 个 基本 分 量 可 以 组 成 高 清 的 图 像 。 也 可 以 把 图 像 上 的 每 个 像素 点 理解 为 (Xx，y，z) 这 样 的 一 个 点 ， 这 个 点 定义 在 三 维 空间 ， 每 一 维 分 别 代 


假设 将 像素 的 顺序 定义 为 : 蓝 、 绿 、 红 ， 那 么 就 可 以 定义 一 个 像素 点 为 (blue，green，red) 。 每 个 图 像 由 大 量 的 像素 点 组 成 ， 如 果 将 这 个 像素 点 组 成 的 矩阵 定义 为 Hx W 大 小 〈H 为 高 ，W 为 宽 ) , 8B 
就 得 到 了 一 个 HxWx3 的 矩 阵 〈(“3” 表 示 像 素 点 的 数值 由 3 个 基本 分 量 组 成 ) 。OpenCV 作 为 图 像 算 法 库 ， 对 图 像 矩 阵 也 是 这 么 定义 的 。 请 提前 安装 好 OpenCV， 本 章 大 部 分 例子 都 需要 它 的 Python 绑 定 


册 5 


假设 图 像 矩 阵 的 变量 名 为 img， 现 在 要 用 Python 实现 一 个 监 色 分 量 为 200、 绿 色 为 100、 红 色 为 50 的 像素 点 的 定义 ， 这 个 像素 点 位 于 图 像 的 300x150 处 。 代 码 如 下 : 


img[300,150,0]-200 
img[300,150,1]-100 
img[300,150,2]-50 





10.1.2 ”算法 描述 


算法 的 基本 原理 是 : 将 当前 像素 与 邻接 的 下 部 和 右 部 的 像素 进行 比较 ， 如 果 相 似 ， 则 将 当前 像素 设置 为 白色 ,否则 设置 为 黑色 。 如 何 判定 像素 相似 呢 ? 应 用 欧 氏 距离 算法 ， 将 一 个 像素 的 3 个 色彩 分 量 映 
射 在 三 维 空间 中 ， 如 果 2 个 像素 点 的 欧 氏 距离 小 于 某 个 常数 的 阅 值 ， 就 认为 它们 相似 。 算 法 的 最 终 效 果 如 图 10-1 所 示 。 图 10-1 中 左 图 是 原 图 像 ， 右 图 是 计算 图 像 边 缘 的 结果 。 





图 10-1 ”图像 边缘 


上 面 涉及 的 算法 其 关键 是 欧 氏 距离 计算 。 下 面 用 Python 编写 计算 欧 氏 距离 的 函数 。 








def get EuclideanDistance (x, y): 
myx-np.array (x) 
myy-np.array(y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy))) 


完整 的 代码 为 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#10-1.ру 

import cv2 

import numpy as np 

fn-"testl.jpg" 

def get EuclideanDistance (x, y): 
myx-np.array (x) 
myy-np.array(y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy))) 
































if name == ' main ': 
print 'loading $s http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' $ fn 


print 'working', 
myimgl = cv2.imread(fn) 
w-myimgl.shape[1] 
h-myimgl.shape[0] 
Sszl-w 
sz0=h 
# 创 建 空白 图 像 
myimg2-np.zeros((sz0,sz1,3), np.uint8) 
# 对 比 产生 线条 
black-np.array([0,0,0]) 
white-np.array([255,255,255]) 
centercolor-np.array ([125,125,125]) 
for y in xrange(0,sz0-1): 
for x in xrange(0,sz1-1): 

mydownemyimgl[y-1,x,:] 

myrightemyimg]l[y,x-*1,:] 

myhere-myimgl[y,x,:] 
lmyhere-myhere 
imyrightemyright 
lmydown-mydown 
if get EuclideanDistance (Imyhere, lmydown)»16 and get EuclideanDistan^ 
ce (Imyhere, Imyright) >16: 
myimg2[y,x,:]-black 
elif get EuclideanDistance (Imyhere lmydown)«-16 and get EuclideanDis"^ 
tance (Imyhere, Imyright)«-160: 
myimg2[y,x,:]-white 
else: 
myimg2[y,x,:]-centercolor 

princ "t, 

Ccv2.namedWindow ('img2') 
cv2.imshow('img2', myimg2) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 
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102 Ерс 


图 像 匹 配 算 法 是 基于 像素 的 比较 和 计算 来 实现 的 方法 。 如 图 10-2 所 示 是 美国 的 X-47B， 它 是 人 类 历史 上 第 一 架 无 需 人 工 干 预 、 完 全 由 计算 机 智能 操纵 的 无 人 驾驶 飞机 。 现 在 以 其 在 航母 起 飞 的 图 像 为 例 
讲解 本 节 内 容 。 





图 10-2 X-A7BAyL 4E 2e € 


如 图 10-3 所 示 为 图 10-2 的 两 张 局 部 切片 图 。 我 们 的 任务 是 找到 两 张 切片 图 在 图 10-2 中 的 位 置 ， 并 将 它们 标注 出 来 。 


图 10-3 ”两 张 X-47B 起 飞 画面 切片 图 


10.2.1 “差分 和 矩阵 求 和 


差分 算法 的 核心 在 于 差分 矩 陡 ， 实 质 为 差异 矩 咱 ， 计 算 公 式 很 简单 : 
差分 矩阵 = 图 像 A 矩 阵 数 据 -图 像 B 和 矩阵 数据 


算法 过 程 是 : 首先 ， 计 算 两 个 图 像 的 矩阵 数据 之 间 差 异 分 析 图 像 的 相似 性 ; 然后， 设置 一 个 立 值 进行 比较 ， 如 果 差 分 矩阵 的 所 有 元 素 之 和 在 立 值 以 内 ， 则 表示 这 两 张 图 像 是 相似 的 ， 且 描述 了 同一 物 
。 另 外 ， 它 要 求 两 个 图 像 的 大 小 相同 ， 大 小 处 理 对 于 计算 机 来 说 不 成 问题 ， 改 变 图 像 尺寸 的 算法 已 非常 成 熟 ， 实 现 起 来 很 方便 。 


编写 程序 实现 这 个 算法 的 基本 思路 为 : 将 图 10-3 所 示 的 切片 图 在 图 10-2 中 进行 移动 ， 并 计算 两 个 图 像 的 差分 矩 孟 ， 如 果 差 分 矩阵 的 所 有 元 素 之 和 小 于 1， 则 认为 找到 了 切片 图 在 图 像 中 的 位 置 。 实 现 该 
算法 的 Python 代码 如 下 : 








def showpiclocation (img, findimg): 
# 定 位 图 像 
w-img.shape[1] 
h-img.shape[0] 
fw-findimg.shape[l] 
fh-findimg.shape[0] 
findpt-None 
for now h in xrange(0,h-fh): 
for now w in xrange(0,w-fw): 
comp tz-img[now h:now h*fh,now w:now w-*fw,:]-findimg 
if np.sum(comp tz)«1: 
findpt-now w,now h 
print Mom. Е Е 
Ғі парі !=№опе: 
cv2.rectangle(img, findpt, (findpt [0] +#к, Ғіпарё [1]+#һ), (255,0,0)) 
return img 
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如 图 10-4 所 示 为 算法 效果 图 ， 看 上 去 识别 效果 不 错 。 





图 10-4 切片 识别 效果 图 


完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 
#=*= coding: utf-8 -*- 
#code :myhaspl(qq. com 
#10-2.ру 
# 简 单 定位 图 像 
import cv2 
import numpy as np 
print 'loading http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
def showpiclocation (img, findimg): 

# 定 位 图 像 

w=img.shape [1] 

h=img.shape [0] 

fw=findimg.shape[1] 
fh-findimg.shape[0] 
findpt-None 
for now h in xrange(0,h-fh): 

for now w in xrange(0,w-fw): 

comp tz-img[now h:now h*fh,now w:now w-*fw,:]-findimg 

if np.sum(comp tz)«1: 
findpt-now w,now h 
prine ww. E Е 
Ғі парі !=№опе: 
cv2.rectangle(img, findpt, (findpt[0]+fw,findpt[1]+fh), (255,0,0)) 

return img 
fn-'pictest.png' 
fni-'pictesttl.png' 
fn2-'pictestt2.png' 
myimg-cv2.imread (fn) 
myimgl-cv2.imread(fnl) 
myimg2-cv2.imread(fn2) 
myimg-showpiclocation (myimg,myimgl) 
myimg-showpiclocation (myimg,myimg2) 
cv2.namedWindow ('img') 
cv2.imshow('img', myimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 
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刚才 小 试 牛 刀 ， 通 过 对 差分 矩阵 中 所 有 元 素 求 和 完成 了 匹配 ， 效 果 不 错 。 当 数字 图 像 质量 较 差 时 ， 则 需要 计算 差分 矩阵 的 均值 ， 并 为 均值 设 一 个 适当 的 阔 值 。 


下 面 仍 用 Python 编写 算法 ， 在 目标 图 中 加 上 人 少量 (50000 个 ) 不 同 颜色 的 噪声 点 ， 从 而 测试 算法 在 弱 噪 声 环境 下 的 有 效 性 。 因 为 图 像 质量 不 高 ， 存 在 很 多 噪声 点 ， 所 以 要 将 差分 矩阵 均值 的 冰 值 设置 得 
稍 大 一 点 ， 这 里 设 为 20。 通 常 来 说 ， 阅 值 为 10~200， 阅 值 越 大 ， 能 容忍 的 噪声 点 越 多 。 但 如 果 阅 值 超过 200， 最 好 使 用 下 一 节 介 绍 的 欧 氏 距离 算法 。 如 图 10-5 所 示 是 算法 应 用 效果 。 
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图 10-5“ 弱 噪声 切片 识别 效果 图 (MEA) 


Python 代码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq.com 
#10-3.ру 
dy ER E REDEEM 
import cv2 
import numpy as np 
print 'loading http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
def showpiclocation (img, findimg): 
# 定 位 图 像 
w-img.shape[1] 
h-img.shape[0] 
Fw-findimg.shape[1] 
fh-findimg.shape[0] 
findpt-None 
for now h in хгапае (0,Һ-#) : 
for now w in xrange(0,w-fw): 
comp tz-img[now h:now h*fh,now w:now w-*fw,:]-findimg 
if abs (пр.теап (comp tz))«20: 
findpt-now w,now h 
print "ok" Е 
print ".", 
if findpt!=None: 
cv2.rectangle(img, findpt, (findpt[0]-cfw,findpt[1]-*fh), (0,0,255)) 
return img 
def addnoise (img): 
coutn-50000 
for k in xrange(0,coutn): 


































































































xi int (np.random.uniform(0,img.shape[1])) 
xj int (np.random.uniform(0,img.shape[0])) 
img[xj,xi,0]9» 255 *np.random.rand() 


[ 

img[xj,xi,1]- 255 *np.random.rand() 
img[xj,xi,2]- 255 *np.random.rand() 

fn-'pictest.png' 

fnil-'pictesttl.png' 

fn2-'pictestt2.png' 

myimg-cv2.imread (Ёп) 

myimgl-cv2.imread(fnl) 

myimg2-cv2.imread(fn2) 

addnoise (myimg) 

myimg-showpiclocation (myimg,myimgl) 

myimg-showpiclocation (myimg,myimg2) 

cv2.namedWindow ('img') 

cv2.imshow('img', myimg) 

Cv2.waitKey () 

Cv2.destroyAllWindows () 












































可 见 ， 在 弱 噪 声 的 情况 下 ， 差 分 算法 仍然 具有 很 好 的 匹配 效果 。 


10.2.3 ” 欧 氏 距离 匹配 


1. 强 噪声 图 像 匹配 
对 强 噪 声 环境 下 的 图 像 进行 匹配 时 ， 欧 氏 距 离 匹配 方法 相对 于 以 上 两 种 方法 会 有 更 好 的 效果 。 


仍 以 上 面 的 图 像 为 目标 进行 讲解 。 首 先 ， 在 目标 图 像 中 加 上 更 多 的 (500000 个 ) 不 同 颜色 的 噪声 点 。 代 码 如 下 : 





def addnoise (img): 
coutn-500000 
for k in xrange(0,coutn): 
xi = int(np.random.uniform(0,img.shape[1])) 














xj = int(np.random.uniform(0,img.shape[0])) 
img[xj,xi,0]- 255 *np.random.rand() 
img[xj,xi,1]- 255 *np.random.rand() 
img[xj,xi,2]- 255 *np.random.rand() 





生成 强 噪声 环境 下 的 图 像 ， 如 图 10-6 所 示 。 





10-6 ЖРА (НЕА) 


现在 要 应 用 欧 氏 距离 对 如 图 10-6 所 示 的 目标 图 完成 匹配 。 其 核心 算法 为 : 设 图 像 矩 阵 有 n 个 元 素 ， 用 n 个 元 素 值 O0. Xo, 2s xn) 组 成 该 图 像 的 特征 组 ， 特 征 组 形成 了 n 维 空间 ， 特 征 组 中 的 特征 码 构 


成 每 一 维 的 数值 。 在 n 维 空间 下 ， 两 个 图 像 矩 阵 各 形成 了 一 个 点 ， 然 后 计算 这 两 个 点 之 间 的 距离 ， 距 离 最 小 者 为 最 匹配 的 图 像 。 
如 图 10-7 所 示 是 算法 应 用 的 效果 图 ， 欧 氏 距 离 算法 成 功 地 找到 了 匹配 位 置 。 在 图 像 如 此 模糊 的 情况 下 ， 人 用 肉眼 都 很 难 进行 图 像 匹配 。 由 此 可 见 ， 机 器 学 习 算法 在 某 些 方面 胜 过 人 类 的 “智能 ”。 
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图 10-7” 强 噪声 切片 识别 效果 图 ( 附 彩 图 ) 


完整 的 Python 代 码 如 下 : 





#!/usr/bin/env python 
f-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#10-4.ру 
EKER PS REEL 
import cv2 
import numpy as np 
print 'http://blog.csdn.net/myhaspl' 
print 'myhaspl8qq.com' 
print 
print 'loading http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
def get EuclideanDistance (x, y): 
myx-np.array (x) 
myy-np.array(y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy))) 
def findpic (img, findimg,h,fh,w,fw 
minds-1e8 
mincb ћ=0 
mincb w=0 
for now h in xrange (0,h-fh): 
for now w in xrange(0,w-fw): 
my img-img[now h:now h-fh,now w:now w-fw,:] 
my findimg-findimg Е i 
dis-get EuclideanDistance (my img,my findimg) 
if dis«minds: Hu Е 
mincb h-now h 
mincb w-now w 
minds-dis ` 
princ "i", 
Ғіпарё=тіпср w,mincb h 
cv2.rectangle(img, findpt, (findpt[0]-cfw,findpt[1]-*fh), (0,0,255)) 
return img 
def showpiclocation (img, findimg): 
# 定 位 图 像 
w=img.shape [1] 
h=img.shape [0] 
fw-findimg.shape[1] 
fh=findimg. shape [0] 
return findpic (іта, findimg,h,fh,w, fw) 
def addnoise (img): 
coutn-500000 
for k in xrange(0,coutn): 
xi = int(np.random.uniform(0,img.shape[1])) 
xj = int(np.random.uniform(0,img.shape[0])) 
img[xj,xi,0]- 255 *np.random.rand() 
img[xj,xi,1]- 255 *np.random.rand() 
img[xj,xi,2]- 255 *np.random.rand() 
fn-'pictest.png' 
fni-'pictesttl.png' 
fn2-'pictestt2.png' 
myimg-cv2.imread (fn) 
myimgl-cv2.imread(fnl) 
myimg2-cv2.imread(fn2) 
addnoise (myimg) 
myimg-showpiclocation (myimg,myimgl) 
myimg-showpiclocation (myimg,myimg2) 
cv2.namedWindow ('img') 
cv2.imshow('img', myimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 













































































































































































2. 变 形 图 像 匹配 


欧 氏 距离 方法 不 仅 对 强 噪 声 图 像 匹 配 有 效 ， 而 且 对 变形 后 的 图 像 匹配 效果 也 不 错 。 如 图 10-8 所 示 就 是 应 用 欧 氏 距离 方法 对 有 倾斜 角度 的 图 像 进行 匹配 的 效果 。 





图 10-8 倾斜 图 像 匹 配 效 果 图 


算法 原理 前 面 已 经 解说 过 ， 在 此 不 重复 。 相 关 的 Python 代码 实现 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#10-5.ру 
# 图 像 倾斜 后 定位 图 像 
import cv2 
import numpy as np 
print 'loading http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
def get EuclideanDistance (x, y): i 
myx-np.array (x) 
myy-np.array(y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy))) 
def findpic (img, findimg,h,fh,w,fw 
minds-1e8 
mincb h-0 
mincb м=0 
for now h in xrange (0,h-fh): 
for now w in xrange(0,w-fw): 
my img-img[now h:now h-fh,now w:now w-fw,:] 
my findimg-findimg i i 
dis-get EuclideanDistance (my img,my findimg) 
if dis«minds: Е Е 
mincb h-now h 
mincb w-now w 
minds-dis 
print ".", 
Ғіпарё=тіпср w,mincb h 
cv2.rectangle(img, findpt, (findpt[0]-cfw,findpt[1]-*fh), (0,0,255)) 
return img 
def showpiclocation (img, findimg): 
# 定 位 图 像 
w=img.shape [1] 
h=img.shape [0] 
fw-findimg.shape[1] 
fh-findimg.shape[0] 
return findpic (img, findimg,h,fh,w, fw) 
fn-'pictestxz.png' 
fni-'pictesttl.png' 
fn2-'pictestt2.png' 
myimg-cv2.imread (fn) 
myimgl-cv2.imread(fnl) 
myimg2-cv2.imread(fn2) 
myimg-showpiclocation (myimg,myimgl) 
myimg-showpiclocation (myimg,myimg2) 
cv2.namedWindow ('img') 
cv2.imshow('img', myimg) 
Cv2.waitKey () 
CV2.destroyAllWindows () 











































































































欧 氏 距离 对 弱 噪 声 环境 下 的 变形 图 像 仍 有 不 错 的 效果 ， 如 图 10-9 所 示 。 


该 算法 的 Python 实现 代码 如 下 : 








f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#10-6.ру 

TE ФЕ о 5,5, Е И 
import cv2 

import numpy as np 








EBPS/Text/...' 





print 'loading Mhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0 
def get EuclideanDistance (x, y): 
myx-np.array (x) 
myy-np.array(y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy))) 
def findpic (img, findimg,h, fh,w, fw): 
minds-1e8 
mincb h-0 
mincb w-0 
for now h in xrange (0,h-fh): 
for now w in xrange(0,w-fw): 
my img-img[now h:now h-fh,now w:now w-fw,:] 
my findimg-findimg Е i 
dis-get EuclideanDistance (my img,my findimg) 
if dis«minds: i Е 
mincb h-now h 
mincb w-now w 
minds-dis ` 
princ. ".", 
Ғіпарё=тіпср w,mincb h 
cv2.rectangle(img, findpt, (findpt[0]-cfw,findpt[1]-*fh), (0,0,255)) 
return img 
def showpiclocation (img, findimg): 
# 定 位 图 像 
w=img.shape [1] 
h=img.shape [0] 
fw=findimg.shape[1] 
fh=findimg. shape [0] 
return findpic (img, findimg,h,fh,w, fw) 
def addnoise (img): 
coutn-50000 
for k in xrange(0,coutn): 
xi = int(np.random.uniform(0,img.shape[1])) 
xj T 


























































































































= int (np.random.uniform(0,img.shape[0])) 
img[xj,xi,0]- 255 *np.random.rand() 
img[xj,xi,1]- 255 *np.random.rand() 
img[xj,xi,2]- 255 *np.random.rand() 
fn-'pictestxz.png' 
fni-'pictesttl.png' 
fn2-'pictestt2.png' 
myimg-cv2.imread (Ёп) 
myimgl-cv2.imread(fnl) 
myimg2-cv2.imread(fn2) 
addnoise (myimg) 
myimg-showpiclocation (myimg,myimgl) 
myimg-showpiclocation (myimg,myimg2) 
cv2.namedWindow ('img') 
cv2.imshow('img', myimg) 
Cv2.waitKey () 
CV2.destroyAllWindows () 



































10.3 ”图 像 分 类 


近年 来 随 着 多 媒体 技术 的 发 展 ， 图 像 分 类 技术 受到 了 普遍 的 关注 ， 目 前 采用 的 方法 以 机 器 学 习 算 法 为 主 。 图 像 分 类 利用 计算 机 对 图 像 进行 分 析 ， 根 据 图 像 信息 的 不 同 特征 ， 将 不 同类 别 的 图 像 区 分 开 


图 像 分 类 的 算法 过 程 如 下 : 

1) 准备 样本 图 像 。 样 本 图 像 的 要 求 是 : 能 代表 所 属 类 别 中 尽 可 能 多 的 图 像 。 
2) 提取 每 个 样本 的 特征 后 ， 形 成 类 别 特征 码 。 

3) 应 用 机 器 学 习 算 法 对 类 别 特征 码 进行 学 习 ， 提 取 特 征 码 包含 的 图 像 知 识 。 


4) 判断 未 知 图 像 所 属 类 别 。 


10.3.1 余弦 相似 度 


余弦 相似 度 通过 测量 两 个 向 量 内 积 空 间 的 夹 角 的 余弦 值 来 度量 它们 之 间 的 相似 性 ， 尤 其 适用 于 任何 维度 的 向 量 比较 中 ， 因 此 属于 高 维 空间 应 用 较 多 的 机 器 学 习 算法 。 通 常 来 说 ， 数 字 图 像 包含 的 特征 码 
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较 多 ， 而 这 些 特 征 组 就 属于 高 维 空间 ， 这 正 是 余弦 相似 度 算法 应 用 的 范围 ， 算 法 将 每 个 图 像 的 特征 组 转化 为 高 维 空间 的 向 量 ， 两 个 向 量 之 间 的 角度 之 余弦 值 可 用 于 确定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 
在 图 像 分 类 中 应 用 余弦 相似 度 算法 的 关键 在 于 : 计算 这 些 代表 每 个 图 像 特征 的 向 量 的 内 积 空间 的 夹 角 余弦 值 ， 从 而 度量 图 像 之 间 的 相似 性 。 对 于 相似 性 的 衡量 标准 有 以 下 两 种 : 
- 为 相似 性 设置 一 个 阔 值 。 在 这 个 阅 值 以 内 的 都 属于 同一 类 别 图 像 。 这 种 标准 可 以 将 图 像 划 分 为 多 种 类 型 ， 例 如 : 高 楼 不 但 属于 城市 美景 ， 而 且 属 于 写字 楼 景观 。 
. 选择 与 样本 向 量 的 余弦 相似 度 最 接近 1 的 图 像 为 该 类 别 图 像 。 这 种 标准 只 能 将 图 像 划 分 为 一 种 类 别 。 

1. 算 法 描述 


下 面 针 对 第 二 种 衡量 标准 讲解 余弦 相似 度 算法 。 


特征 提取 一 直 是 图 像 处 理 和 计算 机 视觉 研究 领域 中 一 个 值得 探讨 的 问题 ， 在 计算 机 科学 、 医 疗 辅助 诊断 、 军 事 、 工 业 测 量 等 众多 领域 都 广泛 采用 这 一 技术 ， 尤 其 是 在 计算 机 视觉 和 模式 识别 的 研究 中 。 
如 何 准 确定 位 和 提取 关键 特征 往往 是 首先 需要 解决 的 问题 之 一 ， 是 提高 识别 率 等 问题 的 重要 前 期 准备 和 关键 因素 。 目 前 图 像 特 征 提取 算法 较 多 ， 不 同 的 算法 适应 于 不 同 的 图 像 分 析 任 务 。 


本 节 讲 述 的 算法 基本 原理 是 : 把 图 像 上 的 点 分 为 不 同 的 子 集 ， 这 些 子 集 往往 属于 孤立 的 点 、 连 续 的 曲线 或 者 连续 的 区 域 。 将 这 些 点 按 区 域 组 成 子 集 ， 提 取 子 集 的 特征 后 ， 将 每 个 子 集 的 特征 作为 图 像 的 
一 个 特征 项 来 进行 计算 。 


1) 样本 特征 。 设 图 像 分 为 m 个 区 域 ， 每 个 区 域 有 n 个 像素 ， 每 个 像素 在 图 像 矩阵 中 以 红 、 绿 、 蓝 三 色 来 表示 ， 且 区 域 特征 计算 方式 为 : 


》 像素 ;颜色 的 红色 分 量 值 “》 像素 ;颜色 的 绿色 分 量 值 
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k |16 E LL, 
Hn = 
》 像素 i 颜色 的 蓝 色 分 量 
n 


那么 ， 样 本 特征 码 矩 阵 为 xm， 即 共 3 行 m 列 ， 这 3 行 分 别 代表 红 、 绿 、 蓝 三 个 分 量 ， 每 列 为 各 分 量 的 区 域 特 征 码 。 


2) 类 别 特征 。 这 里 为 每 个 类 别 准 备 了 3 个 样本 ， 类 别 特 征 的 计算 方式 为 : 


D ЖЖ i 的 红色 分 量 特征 值 2 样本 i 的 绿色 分 量 特征 值 


нае а 
3 j 
i€3 
3 


其 中 ， 样 本 ij 是 属于 该 类 别 的 样本 。 

在 计算 出 类 别 特征 后 ， 算 法 对 样本 学 习 完毕 。 当 有 未 知 图 像 需 要 分 类 时 ， 首 先 计 算 其 图 像 的 样本 特征 ， 然 后 将 样本 特征 和 类 别 特 征 映 射 为 高 维 空间 的 向 量 ， 最 后 计算 这 两 个 向 量 的 余弦 相似 度 ， 选 择 余 
弦 相 似 度 最 大 的 类 别 为 未 知 图 像 对 应 的 类 别 。 
2. 算 法 应 用 


下 面 以 风景 图 像 分 类 为 例 说 明 余弦 相似 度 的 应 用 。 为 每 个 类 别 各 准备 3 个 样本 图 像 ， 提 取 类 别 特征 码 ， 然 后 将 如 图 10-10~ 图 10-12 所 示 的 3 个 待 分 类 图 像 划 分 到 蓝天 风景 、 树 林 风 景 、 瀑 布 风 景 这 3 个 分 


类 中 。 





图 10-10 X XU 


1) 将 图 10-10~ 图 10-12 分 别 从 上 到 下 、 从 左 到 右 分 割 成 春 干 块 状 区 域 ， 对 每 块 区 域 的 图 像 像素 特征 进行 提取 后 ， 形 成 这 3 个 待 分 类 图 像 的 特征 码 。 下 面 的 代码 所 示 的 函数 readpic 定 义 了 分 割 并 提取 特 
征 码 的 操作 ， 以 待 分 类 图 像 为 参数 调用 该 函数 ， 完 成 特征 码 计算 。 





树林 风景 


图 10-11 








瀑布 风景 


图 10-12 





nys 











def readpic (і 


# 返 回 图 像 特征 码 


n) 





cv2.imread(1 


fnimg 
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] 


ltz.append([]l) 


ltz- 


162.аррепа ([1) 




















al 


al 


alltz. append ([]) 
for now h in xrange (0, h,h interval): 
for now w in xrange (0, W,W | interval): 
b = - img [now h:now h+h interval,now w:now w+w interval,O 
g = img[now h:now h+h interval,now w:now w+w interval,1] 
r = img[now h:now h*h interval,now w:now wtw interval,2 
btz-np.mean (р) 
qgtz-np.mean (g) 
vt 
al 
al 
al 
11 





























2= np. mean ( 工 ) 
di ] .append (btz) 








1.аррепа (gtz) 
] -append (rtz) 

















return a 
2) 计算 类 别 特征 码 。 通 过 每 个 类 别 所 有 样本 的 区 域 特征 的 平均 值 ， 提 取 类 别 特 征 。 代 码 如 下 : 


# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 
for ii in xrange (1,picflag+1): 
smp x-[] 





























b tz-np.array([0,0,0]) 
g tz-np.array([0,0,0]) 
r tz-np.array([0,0,0]) 
mytz-np. zeros((3,w fg*h fg)) 
for jj in xrange(1,3): 
fn='p'+str (ii)+'-'+str (jj) .png' 
) 








tmptz-readpic (fn 
mytzt-np.array (tmptz) 
mytz/-3 

train х.аррепа (mytz[0].tolist()-*mytz[1].tolist()*mytz[2].tolist ()) 








3) 计算 待 分 类 图 像 的 特征 码 与 每 个 类 别 特征 码 之 间 的 余弦 距离 ， 距 离 最 大 者 为 图 像 所 属 分 类 。 下 面 的 代码 计算 了 ptest3.png 图 像 与 每 个 类 别 特征 码 的 余弦 相似 度 。 


fn-'ptest3.png' 























testtz-np.array (readpic (fn)) 
simtz-testtz[0].tolist()-*testtz[1].tolist()-*testtz[2].tolist() 
maxtz-0 

nowi-0 

for i in xrange (0,picflag): 











nowsim-get cossimi (train x[i],simtz) 
if nowsim»maxtz: с 
maxtz-nowsim 
nowi-i 
print u'%s 属 于 第 Sd 类 '% (fn,nowi+1) 








完整 的 Python 代 码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#10-7.ру 

#478 ЈЕ S BE AM 
import numpy as np 
import cv2 

p NR 





























w fg-20 
h fg-15 
picflag-3 
def readpic (fn): 
# 返 回 图 像 特征 码 
fnimg = cv2.imread(fn) 


img-cv2.resize(fnimg, (800,600)) 
w=img.shape [1] 
h=img.shape [0] 
w interval=w/w fg 
h interval-h/h fg 









































alltz-[] 

alltz.append([]) 
alltz.append([]) 
alltz.append([]) 





for now h in xrange (0, h,h interval): 
for now w in xrange (0, W, w interval): 



































b = img[now h:now h+h interval,now w:now w+w interval,0] 
g = img[now h:now h+h interval,now w:now w+w interval,1] 
r = img[now h:now h*h interval,now w:now w+w interval,2] 
btz-np.mean (р) 

qtz-np.mean (g) 

rtz- -np. mean (r) 

alltz[0].append (btz) 

al tz[1] append (gtz) 

alltz[2].append (rtz) 

















return alltz 

def get cossimi (x,y): 
myx-np.array (x) 
myy-np.array (y) 
cosl-2np.sum (myx*myy) 
соѕ21=пр. sqrt (sum (myx*myx) ) 
cos22-np.sqrt (sum (myy*myy) ) 
return cos1/float (cos21*cos22) 
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train x -[] 

gr] 

# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 

for ii in xrange (1,picflag+1): 
smp x-[] 
b tz-np.array([0,0,0]) 
g tz-np.array([0,0,0]) 
r tz-np.array([0,0,0]) 
mytz-np. zeros((3,w fg*h fg)) 
for jj in xrange(1,3): 

fn-'p'*str(ii)-t'-'*str(jj)*'.png 











tmptz-readpic (fn) 
mytz-t-np.array (tmptz) 
mytz/-3 
train х.аррепа (mytz[0].tolist()*mytz[1].tolist ()*mytz[2].tolist ()) 
fn-'ptest3.png' 
testtz-np.array (readpic (fn) ) 
simtz-testtz[0].tolist()-*testtz[1].tolist()-*testtz[2].tolist() 
maxtz-0 
nowi-0 
for i in xrange (0,picflag): 
nowsim-get cossimi (train x[i],simtz) 
if nowsim»maxtz: B 
maxtz-nowsim 
nowi-i 
print u'%s 属 于 第 Sd 类 '% (fn,nowi+1) 
fn-'ptestl.png' 





























一 












































testtz=np.array (readpic (fn) ) 

simtz=testtz[0].tolist ()+testtz[1].tolist ()+testtz[2].tolist() 
maxtz=0 

nowi=0 

for i in xrange (0,picflag): 








nowsim=get cossimi (train x[i],simtz) 
if nowsim>maxtz: i 
maxtz-nowsim 
nowi-i 
print u' 55А тва 类 '$ (Ёп, помі+1) 
fn-'ptest2.png' 
testtz-np.array (readpic (fn) ) 
simtz-testtz[0].tolist()-*testtz[1].tolist()-*testtz[2].tolist() 



































maxtz-0 
nowi-0 
for i in xrange (0,picflag): 
nowsimeget cossimi (train x[i],simtz) 
if nowsim»maxtz: Е 
maxtz-nowsim 
nowi-i 
print u'%s 属 于 第 Sd 类 '% (Еп, помі+1) 




















运行 上 述 代码 ， 观 察 下 面 的 运行 结果 ， 可 见 对 算法 任务 中 列举 的 图 像 识别 效果 不 错 。 


正在 处 理 中 

ptest3.png 属 于 第 3 类 
ptestl.png/É T $1 
ptest2.png/£ T $2 

















本 节 中 每 个 类 别 仅 使 用 了 3 个 样本 ， 基 于 余弦 相似 度 的 算法 在 样本 量 较 小 的 情况 下 ， 效 果 其 实 不 是 最 佳 的 。 例 如 : 在 测试 图 像 中 加 入 另 一 张 测试 图 ， 要 用 基于 余弦 相似 度 算法 将 它 分 类 ， 那 会 怎样 ? 修改 
10-7.py， 代 码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. сот 
#10-8.ру 
# 余 孩 距离 识别 图 像 类 型 ， 有 一 张 图 像 不 能 正确 识别 
import numpy as np 
import cv2 
print u' 正 在 处 理 中 ' 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
fn-'ptest22.png' 
testtz-np.array (readpic (fn) ) 
simtz-testtz[0].tolist()-*testtz[1].tolist()-*testtz[2].tolist() 
maxtz-0 
nowi-0 
for i in xrange (0,picflag): 

nowsimeget cossimi (train x[i],simtz) 

if nowsim»maxtz: Е 

maxtz-nowsim 
nowi-i 

print u'%s 属 于 第 Sd 类 '% (Еп, помі+1) 























































































































程序 运行 结果 如 下 : 





正在 处 理 中 
test3.png 属 于 第 3 类 
test1 .png 属 于 第 1 类 
test2.png 属 于 第 2 类 
test22 .png 属 于 第 3 类 
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从 上 述 结果 看 ， 图 像 Ptest22.png (如 图 10-13 所 示 ) 被 错误 地 分 到 了 第 三 类 ， 实 际 它 属于 第 二 类 树林 风景 图 像 。 





图 10-13” 待 分 类 图 像 





PCA 算 法 基于 变量 协 方差 矩阵 对 信息 进行 压缩 和 处 理 ， 通 常用 于 数据 降 维 ， 可 将 它 用 于 图 像 和 矩 阵 降 维 ， 以 降 维 后 的 矩阵 为 基础 提取 图 像 特 征 。 当 提取 的 图 像 特 征 维度 比较 高 时 ， 为 了 简化 计算 量 以 及 人 存 
储 空间 ， 需 要 对 这 些 高 维 数据 进行 一 定 程度 上 的 降 维 ， 并 尽量 保证 数据 不 失真 。 此 外 ，PCA 算 法 还 可 应 用 于 图 像 和 矩阵 ， 它 能 找到 变化 大 的 维 ， 去 除 掉 那 些 变化 不 大 的 维 ， 这 样 能 更 有 效 地 提取 图 像 明显 特 


征 ， 便 于 后 期 识别 算法 并 进一步 加 工 ， 因 为 图 像 特征 组 含有 的 不 明显 的 特征 值 将 会 影响 识别 的 精度 。 


应 用 PCA 降 维 技术 ， 对 上 节 讲 述 的 图 像 特 征 码 算法 进行 改进 ， 返 回 图 像 特 征 码 。 下 面 是 用 Python 实现 的 基于 PCA 的 图 像 特征 码 算法 。 











def readpic (fn): 
# 返 回 图 像 特征 码 
fnimg = cv2.imread(fn) 
img-cv2.resize (fnimg (500,400)) 
w=img.shape [1] 
h=img.shape [0] 
w interval=w/20 
h interval=h/10 
alltz=[] 
for now h in xrange (0, h,h | interval): 
for now w in xrange (0, W,W | interval): 
b = ' img[now | h:now h+h interval,now w:now w+w interval,O 
g = img[now h:now h+h interval,now w:now w+w interval,1] 
r = img[now h:now h+h interval,now w:now w+w interval,2 
btz=np.mean (b 
tz=np.mean ( 
( 















































) 
g g) 
rtz=np.mean (r) 
alltz.append([btz,gtz,rtz]) 
result alltz-np.array(alltz).T 





pca = mlpy.PCA() 
pca.learn(result alltz) 
result alltz = pca.transform(result alltz, k-len(result alltz)/2) 
result alltz -result alltz.reshape(len(result alltz)) 

return result alltz 
























































下 一 节 的 神经 网 络 与 SVM 图 像 分 类 算法 将 基于 本 节 描 述 的 PCA 技 术 提 取 图 像 特征 码 ， 然 后 进一步 分 析 和 计算 ， 得 到 图 像 所 属 类 别 。 


10.3.3 ”基于 神经 网 络 的 图 像 分 类 


基于 神经 网 络 的 图 像 分 类 算法 比 余弦 相似 度 分 类 算法 的 普 适 性 更 好 ， 准 确 率 更 高 。 


1. 算 法 描述 


神经 网 络 图 像 分 类 算法 首先 通过 PCA 技 术 提 取样 本 图 像 特征 码 与 待 分 类 图 像 特征 码 ， 然 后 将 特征 码 送 入 神经 网 络 进行 训练 ， 让 神经 网 络 学 习 每 个 类 别 图 像 的 特征 ， 最 后 将 未 知 类 别 图 像 送 入 神经 网 络 ， 
自动 识别 它 的 类 型 。 其 步骤 如 下 : 


1) 基于 PCA 技 术 提取 每 个 样本 的 图 像 特征 码 。 
2) 根据 样本 特征 码 生 成 输入 项 ， 根 据 样 本 所 属 类 别 生 成 对 应 的 输出 项 。 
3) 将 输入 与 输出 项 送 入 非 线性 神经 网 络 训练 。 
4) 基于 PCA 技 术 生 成 待 分 类 图 像 的 特征 码 。 
5) 将 待 分 类 图 像 的 特征 码 送 入 神经 网 络 仿真 测试 ， 根 据 神 经 网 络 输出 项 判断 其 所 属 类 别 。 
2. 输 出 目标 设计 
神经 网 络 的 输出 目标 以 及 输出 函数 的 设计 应 本 着 灵活 实用 的 原则 。 在 本 例 中 ， 神 经 网 络 的 输出 值 为 3 个 图 像 类 别 ， 用 数字 1~ 3 来 表示 ， 但 不 能 直接 将 数字 作为 目标 输出 值 。 常 用 的 表示 方式 有 以 下 几 种 。 
.将 数字 转换 为 1 以 内 的 小 数 。 比 如 : 乘 以 输出 值 的 最 大 数 的 倒数 进行 调整 等 。 


“ 按照 二 进 制 编码 的 思路 ， 将 其 设计 为 如 下 形式 : 





GB 请 
СЭ 
` 
` 








输出 函数 的 设计 原则 是 : 将 输出 目标 值 转 化 为 实际 样本 的 输出 值 格式 。 本 例 中 将 其 定义 为 : 


神经 网 络 输出 值 = 输 出 目标 值 的 最 大 值 所 在 的 数组 索引 


3.Python 实 现 


下 面 来 看 看 图 像 特 征 码 计算 ， 代 码 如 下 : 








def readpic(fn): 
# 返 回 图 像 特征 码 
fnimg = cv2.imread(fn) 
img-cv2.resize(fnimg, (500,400)) 
w-img.shape[1] 
h-img.shape[0] 
w interval-w/20 
h interval-h/10 
alltz-[] 
for now h in xrange (0, h,h | interval): 
for now w in xrange (0, W,W | interval): 
b = ' img[now | h:now h+h interval,now w:now w+w interval,O 
g = img[now h:now h+h interval,now w:now w+w interval,1] 
r = img[now h:now h+h interval,now w:now w+w interval,2 
btz=np.mean (b) 
gtz=np.mean (g) 
rtz=np.mean (r) 
a ([ 
(a 












































lltz.append 
result alltz-np.array (a 
pca = mlpy.PCA() 
pca.learn(result alltz) 
result alltz = pca.transform(result alltz, k-len (result alltz)/2) 
result alltz -result alltz.reshape(len(result alltz)) 

return result alltz 


btz,gtz,rtz]) 
lltz).T 






























































接着 是 输入 与 输出 项 初始 化 。 代 码 如 下 : 


#x 和 q 样 本 初始 化 
train x -[] 
d-[] 

sp d-[] 


sp d.append([0,0,1]) 

sp d.append([0,1,0]) 

sp d.append([1,0,0]) 

# 读 取 图 片 

for ii in xrange(1,4): 

for jj in xrange(1,4): 

fn-'p'*str(ii)-t'-'*str(jj)*'.png' 

pictz-readpic (fn) 

train x.append (pictz) 
а.аррепа (sp d[ii-1]) 

myinput-np.array (train x) 

mytarget-np.array (d) 























下 面 来 看 看 训练 效果 。 误 差 曲线 如 图 10-14 所 示 。 
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0 10 20 30 40 50 
Epoch number 


图 10-14 ”误差 曲线 


M 


程序 运行 后 ， 识 别 效果 如 下 : 


训练 神经 网 络 完毕 对 样本 进行 测试 

[1, 1, 1, 2, 2, 2, 3, 3, 3] 进 行 仿真 
———ptest3.png--- 

[[ 0.96680714 0.00471284 -0.04523491]] 
[31 

===ptest1.png=== 
[[ 0.10858063 -0.00820875 0.95785349]] 














=ptest2.png=== 
[[ 0.01738297 0.99945777 -0.01017012]] 
[2] 
===ріеѕі21.рпа=== 
[[ 0.95422417 0.00308943 0.12213834]] 
[3] 
——-ptest22.png--- 
[[70.26776152 0.99953727 -0.12122857]] 
[2] 






































最 后 几 行 表明 ， 无 法 被 余弦 相似 度 正 确 分 类 的 ptest22.png 被 神经 网 络 分 类 成 功 ， 但 ptest21.png (如 图 10-15 所 示 ) 被 错误 分 类 。 因 为 神经 网 络 与 SVM 的 不 同 之 处 在 于 ， 神 经 网 络 训练 需要 更 多 的 样本 
进行 训练 〈 本 例 仅 使 用 3 个 样本 ) ， 否 则 不 一 定 能 取得 更 好 的 识别 效果 。 


完整 的 Python 代码 如 下 : 


910-15 4 


误 分 





类 的 图 像 





f!/usr/bin/env python 
f-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#10-9.ру 





#PCA 加 上 人 工 神经 网 络 识别 图 像 类 型 





import numpy as np 
import pylab as pl 
import neurolab as nl 
import cv2 

import mlpy 





print u' 正 在 处 理 中 ' 
def getresult (simjg): 











(0, len (simjg[0])) : 


jg-[] 
for j in xrange (0,len(simjg)): 
maxjg--2 
nowii-0 
for i in xrange 
if simjg[jl 


[i]»maxjg: 


maxjg-simjg[j] [i] 


nowii-i 


jg.append (len (simjg[0]) -nowii) 


return jg 










































































def readpic(fn): 
# 返 回 图 像 特征 码 
fnimg = cv2.imread(fn) 
img-cv2.resize(fnimg, (500,400)) 
w-img.shape[1] 
h-img.shape[0] 
w interval-w/20 
h interval-h/10 
alltz-[] 
for now h in xrange(0,h,h interval): 
for now w in xrange(0,w,w interval): 
р = img[now h:now h+h interval,now w:now w+w interval,0] 
g = img[now h:now h+h interval,now w:now w+w interval,1] 
r = img[now h:now h*h interval,now w:now wtw interval, 2] 
btz-np.mean (b) 
gtz-np.mean (g) 
rtz-np.mean (r) 
alltz.append([btz,gtz,rtz]) 
result alltz-np.array (alltz).T 
pca = mlpy.PCA() 
pca.learn(result alltz) 
result alltz = pca.transform(result alltz, k-len(result alltz)/2) 
result alltz -result alltz.reshape(len(result alltz)) 
return result alltz 
#x 和 gd 样 本 初始 化 
train x =[] 
gr] 
sp d-[] 


sp d.append([0,0,1]) 
sp а.аррепа ([0,1,0]) 
sp d.append([1,0,0]) 
# 读 取 图 像 


for ii in xrange(1,4): 


iL: 




















for jj in xrange(1,4): 
fne'p'tstr(ii)-t'-'*str(jj)*t'.png' 
pictz-readpic (fn) 

train x.append (pictz) 


d.append(sp d[ii-1]) 
myinput-np.array(train x) 


mytarget-np.array (d) 

mymax-np.max (myinput) 

netminmax- [] 

for i in xrange (0, len (myinput[0])): 
netminmax.append ([0, тутах]) 
































print u'\n 正 在 建立 神经 网 络 ' 

bpnet = nl.net.newff (netminmax, [5, 3]) 

print 

err = bpnet.train(myinput, mytarget, epochs-800, show-5, доа1=0.2) 


if err[len(err)-1]»0.4: 

















else: 
print u'\n 训 练 神经 网 络 完毕 ' 
pl.subplot (111) 
pl .plot (err) 
pl.xlabel('Epoch number') 
pi.ylabel('error (default SSE 
print u" 对 样本 进行 测试 " 
simd- bpnet.sim(myinput) 
mysimd-getresult (simd) 
print mysimd 
print u" 进 行 仿真 " 
testpictz-np.array([readpic('ptest3.png')]) 
simtest-bpnet.sim(testpictz) 
mysimtest-getresult (simtest) 
print "---ptest3.png---" 
print simtest 
print mysimtest 
testpictz-np.array([readpic('ptestl.png')]) 
simtest-bpnet.sim(testpictz) 
mysimtest-getresult (simtest) 
print "---ptestl.png---" 
print simtest 
print mysimtest 
testpictz-np.array([readpic('ptest2.png')]) 
simtest-bpnet.sim(testpictz) 
mysimtest-getresult (simtest) 
print "---ptest2.png---" 
print simtest 
print mysimtest 
testpictz-np.array([readpic('ptest21.png')]) 
simtest-bpnet.sim(testpictz) 
mysimtest-getresult (simtest) 
print "---ptest21.png---" 
print simtest 
print mysimtest 
testpictz-np.array ([readpic('ptest22.png')]) 
simtest-bpnet.sim(testpictz) 
mysimtest-getresult (simtest) 
print "---ptest22.png---" 
print simtest 
print mysimtest 
pl.show() 
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10.34 基于 SVM 的 图 像 分 类 


类 


SVM 图 像 分 类 算法 首先 通过 PCA 技 术 提 取样 本 图 像 特征 码 与 待 分 类 图 像 特 征 


型 。 步 又 如 下 : 
1) 基于 PCA 技 术 提 取 每 个 样本 的 图 像 特 征 码 。 
2) 根据 样本 特征 码 生 成 输入 项 ， 根 据 样本 所 属 类 别 生 成 对 应 的 输出 项 。 


3) 将 输入 与 输出 项 送 入 SVM 训 





4) 基于 PCA 技 术 生 成 待 分 类 图 像 的 特征 码 。 


5) 将 待 分 类 图 像 的 特征 码 送 入 SVM 仿真 测 坛 ， 根 据 SVM 输 出 项 判断 其 所 属 类 别 。 


其 中 ，SVM 的 输出 目标 可 以 直接 使 用 类 别 序号 (在 本 例 中 为 数字 1~3) 。 


2.Python 实 现 


1) 输入 与 输出 项 的 初始 化 。 代 码 如 下 : 





#x 和 Gd 样本 初始 化 

train x =[] 

d-[] 

# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 

for ii in xrange (1,picflao+1): 








smp x-[] 
mytz-np.zeros((3,w fg*h fg)) 
for jj in xrange(1,4): 
fn-'p'*str(ii)-t'-'*str(jj)*'.png' 
tmptz-readpic (fn) 

train x.append(tmptz.tolist()) 


























d.append (ii) 
2) SVM 训练 与 仿真 训练 。 代 码 如 下 : 








x-np.array(train x) 
y-np.array (d 
svm = mlpy.LibSvm(svm type-'c svc', kernel type-'poly',gamma-50) 
svm.learn(x, y) 

print svm.pred (x) 


— 





3) 识别 效果 。 如 下 所 示 : 


正在 处 理 中 
liz de Le. 2a 2. 2ш 3e 3e 3al 

test3.png 属 于 第 3 类 

test1 .png 属 于 第 1 类 

test2.png 属 于 第 2 类 

test21 .png 属 于 第 2 类 

test22 .png 属 于 第 2 类 























tO. "O tO OO — 








rise 


在 样本 量 少 的 情况 下 ，SVM 分 类 的 效果 是 最 佳 的 。SVM 算 法 相 比 神经 网 络 的 优势 在 于 : 只 需 


关 入 SVM 进行 训练 ， 学 习 每 


print u'\n 训 练 神经 网 络 失败 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/0l 


T 








U'\n 训 练 神经 网 络 中 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 














要 少量 样本 ， 就 能 达到 较 高 的 识别 精度 。 


T 


类 别 图 像 的 特征 ， 最 后 将 未 知 


类 


EBPS/Text/...WM 


别 图 像 送 入 SVM 仿真 测试 ， 自 动 识 别 它 的 


相对 神经 网 络 而 言 ， 在 每 1 


以 下 是 完整 的 代码 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
#10-10.ру 
#PCA 加 上 SVM 识别 图 像 类 型 
import numpy as np 
import pn 

import m 

Print a Ае 

w fg-10 

h fg-5 

picflag-3 

def геааріс (fn): 

# 返 回 图 像 特征 码 
fnimg = cv2.imread(f 
img-cv2.resize(fnimg 
w=img.shape [1] 
h=img.shape [0] 
w interval=w/w fg 
h interval-h/h fg 
alltz-[] 

for now h in xrange( 
for now w in xra 







































































个 类 别 仅 有 3 个 样本 的 情况 下 ， 


n) 
, (400,200)) 


0,h,h interval): 


nge(0,w,w interval): 
„ПОМ W:nOW wt 
‚ПОМ W:nOW W+ 
/NOW W:nDOW wt 















































w in 
w in 
w in 





terval 
terval 
terval 








所 有 的 测试 图 像 得 到 了 正确 的 分 类 。 





k=len (result alltz)/2) 














b = img[now h:now h+h interval 
g = img[now h:now h*h interval 
r = img[now h:now h*h interval 
Е -np.mean (р) 
gtz=np .mean (g) 
rtz=np.mean (г) 
alltz. ү, gtz,rtz]) 
result alltz-np.array (alltz).T 
pca = mlpy.PCA() 
pca.learn(result alltz) 
result alltz = pca.transform(result alltz, 
result alltz -result alltz.reshape(len(result alltz)) 
return result alltz 
Рав Жл 646 
train x -[] 


а= [] 








for ii in xrange(1,picf 


# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 


ag+1): 





smp x-[] 








mytz-np.zeros ( (3, w 


tg*h fg)) 








for jj in xrange (1,4 











tcmptz-readpic (fn 
train x.append(t 
d.append (ii) 
x-np.array(train x) 
yenp.array (а Е 
svm = mlpy. 
svm.learn(x, y) 








— 








Ғп='р'+5 г (11) +'- 


у — 
"+зіх (33) + 





| ' .png' 
mptz.tolist()) 




































































print svm.pred (x) 
fn-'ptest3.png' 
testtz-np.array (readpic (fn) ) 
о ur 
print u'$s/É + £$dAX'£(fn,nowi) 
fn-'ptestl.png' 
testtz-np.array (readpic (fn) ) 
s uu d E 
print u' $5/& T Sd '$ (£n, nowi) 
fn-'ptest2.png' 
testtz-np.array (readpic (fn) ) 
nowi-svm.pred (testtz) 
print u'%s 属 于 第 Sd 类 '% (fn,nowi) 
fn='ptest21.png' 
testtz=np.array (readpic (fn) ) 
nowi=svm.pred (testtz) 
print u'%s 属 于 第 Sd 类 '% (fn,nowi) 
fn-'ptest22.png' 
testtz-np.array (readpic (fn) ) 
DENEN pred (testtz) 
print u'%s 属 于 第 Sd 类 '% (fn,nowi) 
FE [=] 

10.4 高 斯 噪声 

噪声 可 理解 为 妨碍 人 们 的 感觉 器 官 


认识 的 随机 误差 ”。 


1) 外 部 噪声 。 指 系统 外 部 的 干扰 以 电磁 波 或 经 电源 串 进 


2) 内 部 噪声 。 一 般 可 分 为 以 下 四 种 : 


.由 光 和 电 的 基本 性 质 所 引起 的 噪声 


电器 的 机 械 运动 产生 的 嗓 声 。 


` 器材 材料 本 身 引 起 的 骂 声 


` 系统 内 部 设备 电路 所 引起 的 嗓 声 。 


既然 噪声 


下 面 以 加 性 零 均 值 高 斯 噪声 为 例 ， 通 
Muller 方 法 是 产生 随机 数 的 一 种 方法 ， 算 法 隐 含 
变 为 服从 正 态 分 布 。Box-Muller 算 


1) 假设 图 像 的 灰 阶 范围 是 


2) 针对 每 对 水 平 相 邻 的 像素 (X, у), 


3) 计算 以 下 值 : 


LibSvm(svm type-'c svc', kernel type-'poly',gamma-50) 


。 如 电流 的 产生 是 由 电子 或 空 穴 粒 子 的 集合 ， 


如 各 种 接头 因 拌 动 引 起 电流 的 变化 所 产生 的 噪声 ，; 


如 正片 和 负片 的 表面 颗粒 性 和 磁带 磁盘 表面 的 缺陷 所 产生 的 嗓 声 


是 不 可 避免 ， 那么 在 图 像 处 理 的 过 程 中 ， 为 检验 图 像 算 


算法 的 具体 过 程 如 下 : 


[0, G-1] 。 


如 电源 引入 的 交 


过 在 灰 度 图 上 加 上 这 类 
的 原理 非常 


ЙЕ”; 偏转 系统 和 箱 位 电路 所 引起 的 噪声 


高 斯 噪声 


深奥 ， 但 是 结 


行 噪声 仿真 。 具 体 方 法 是 : 
果 却 相当 简单 。 它 一 般 


是 要 f 


取 o>0: 它 的 值 越 小 时 ， 相 应 的 噪声 也 越 小 。 


(x, у+1) 产生 一 对 位 于 [0, 1] 的 独立 随机 数 r 和 中 。 


等 


定向 运动 所 形成 的 。 
磁头 、 磁 带 等 拉动 或 仪器 


在 每 
叶 到 服从 正 态 


ГАХ 
JJ 


划 系 统 内 部 而 引起 的 噪声 。 如 电气 设备 、 天 体 放 电 现象 等 引起 的 噪声 。 


的 拉动 等 。 


法 的 有 效 性 ， 需 要 人 为 地 生成 一 些 噪声 来 模拟 现实 的 环境 。 


个 点 的 灰 度 值 上 加 上 一 个 噪声 值 ， 


布 的 随机 数 ， 基 本 思想 是 先 


去 正确 理解 所 接收 的 信 源 信息 的 因素 ， 图 像 中 各 种 会 妨碍 人 们 接受 其 信息 的 因素 都 可 称 为 图 像 噪声 ， 噪 声 在 理论 上 可 以 定义 为 “不 可 预测 ， 只 能 用 概率 统计 的 方法 来 
图 像 噪声 在 数字 图 像 处 理 技术 中 的 重要 性 越 来 越 明 显 。 图 像 噪声 按 其 产生 的 原因 可 以 分 为 : 


噪声 值 的 产生 方式 为 Box-Muller 算 法 生成 高 斯 噪声 。 Box- 
得 到 服从 均匀 分 布 的 随机 数 ， 再 将 服从 均匀 分 布 的 随机 数 转 


上 式 中 ，Z1 是 Z2 独 立 的 有 0 均值 和 0 方差 的 正人 态 分 布 。 


4) 设 g 为 输入 图 像 ， 计 算 以 下 值 : 


5) 计算 f(x，y) 和 f(x，y+1) 的 值 : 


LI=O cos(2n à) N-Inr 
Z570 sin(2n19) N/.-Inr 


J x,y)-g(x,y)+2Z, 
Jf xyr1)-g(x.y+r1y+Z; 


c 


0 


f(x,y)= 4 G-1 


(x V) 
0 


Дху+1)у= 1 6-1 


6) 反复 执行 第 3 至 第 5 步 ， 直 到 像素 点 处 理 完毕 为 止 。 


(x „У + 1) 


下 面 以 Python 代码 来 实现 对 某 图 像 的 加 高 斯 噪声 的 操作 ， 如 程序 10-11.py 所 示 。 


J'(x.y)<0 
f Cp)>G-1 
其 他 


f'Gy + 1)«0 
/'(х,у + 1)>G-1 
其 他 








# -*- coding: utf-8 -*- 
ibo 3525) 48 5 АЖ Б 

#code :myhasplG8myhaspl.com 
#10-11.ру 

import cv2 

import numpy as np 
fn="test112.jpg" 
myimg-cv2.imread (fn) 











img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 








param-30 

# 灰 阶 范围 

grayscale=256 

w=img.shape [1] 

h=img.shape [0] 
newimg-np.zeros((h,w),np.uint8) 
for x in xrange(0,h): 

for y in xrange(0,w,2): 














fxy-int (img[x, y]-*z1) 

fxyl-int (img[x, у+1]+22) 

ФЕ (x, y) 

if Ёху<0: 

fxy val-0 

elif fxy»grayscale-1: 

fxy val-grayscale-1 

else: 

fxy val-fxy 

8f (x, y+1) 

i ху1<0: 

fxyl val-0 

eli xyl»grayscale-1: 

fxyl val-grayscale-1 

else: 

fxyl val-fxyl 
newimg[x,y]-fxy val 
newimg[x, y*1]-fxyl val 

cv2.imshow('preview',newimg) 

Cv2.waitKey () 

Cv2.destroyAllWindows () 











































































































运行 程序 10-11.py， 结 果 如 图 10-16 所 示 。 


rl-np.random.random sampl 
r2-np.random.random sampl 
zl-param*np.cos (2*np.pi*r2)*np.sqri 
z2-param*np.sin(2*np.pi*r2)*np.sqri 


e() 
e() 
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程序 10-12.py 实 现 了 对 彩色 图 像 增加 高 斯 噪声 ， 代 码 如 下 所 示 : 





4 -*- coding: utf-8 -*- 
# 加 性 零 均 值 高 斯 噪声 
#code:myhaspl@myhaspl .com 
#10-12 .py 
import cv2 
import numpy as np 
fn="test112.jpg" 
myimg-cv2.imread (fn) 
img-myimg 
param-30 
# 灰 阶 范围 
grayscale=256 
w-img.shape[1] 
h-img.shape[0] 
newimg-np.zeros((h,w,3),np.uint8) 
for x in xrange (0,h): 

for y in xrange(0,w,2): 
rl-np.random.random sample () 
r2-np.random.random sample () 
zl-param*np.cos (2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 
z2-param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 
fxy O-int (img[x,y,0]-*z1) 
1 O-int (img[x, y*1,0]*z2) 
1=int (img[x, y, 1] *z1) 
1=int (img[x, у+1,1]+22) 
xy 2-int (img[x, y, 2] *z1) 
xyl 2-int (img[x, y*1,2]*z2) 
































KOX XS 
pce 























H- == h Fh rh h Fh 











xy val 0-0 
elif fxy O»grayscale-1: 
fxy val O-grayscale-1 






















































































else 
fxy val 0-fxy 0 
if fxy 1«0: Е 
fxy val 1-0 
elif fxy 1»grayscale-1: 
fxy val l-grayscale-1 
else: 
fxy val l-fxy 1 
if fxy 2<0: 
fxy val 2=0 
elif fxy 2>grayscale-1 





xy val 2=grayscale-1 

















else; 

fxy val 2=fxy 2 
#Е (x, y+1) 
if Ёху1 0<0 





xyl val 0-0 
eli xyl O»grayscale-1: 
xyl val O-grayscale-1 

























































































else: 
fxyl val 0=#ху1 0 

if fxyl 1«0: Е 
fxyl val 1-0 

elif fxyl 1»grayscale-1: 
fxyl val 1-grayscale-1 

else: . |. 
fxyl val 1=#ху1 1 

if fxyl 2«0: Е 
fxyl val 2-0 

elif fxyl 2»grayscale-1: 








xyl val 2-grayscale-] 





else: 
fxyl val 2=#ху1 2 
newimg[x,y,O]-fxy val 0 
newimg[x,y,l]-fxy val 1 
] 
, 
, 


[ 

[ 
newimg[x,y,2]-fxy val 2 

[ 

[ 


























newimg[x,y-*1,0]-fxyl val 0 

newimg[x,y*1,1]-fxyl val 1 

newimg[x,y*1,2]-fxyl val 
cv2.imshow('preview',newimg) 
Cv2.waitKey () 


























Cv2.destroyAllWindows () 





程序 10-12.py 在 彩色 图 像 中 人 为 地 增加 了 若干 高 斯 噪声 ， 运 行程 序 ， 效 果 如 图 10-17 所 示 。 





图 10-17 Ж@ ÉE] S AER S 


10.5 ”二 值 化 


图 像 的 二 值 化 ， 就 是 将 图 像 上 像素 点 的 灰 度 值 设置 为 0 或 255， 也 就 是 将 整个 图 像 呈现 出 明显 的 只 有 黑 和 白 的 视觉 效果 ， 最 常用 的 方法 就 是 设 定 一 个 准 值 T， 用 T 将 图 像 的 数据 分 成 两 部 分 : 大 于 T 的 像素 
群 和 小 于 T 的 像素 群 。 


10.5.1 threshold 


可 调用 OpenCV 的 threshold 实 现 二 值 化 ，Python 调 用 此 方法 的 格式 如 下 : 





cv2.threshold(src, thresh, maxval, type[, dst]) 一 retval, dst 





该 方法 主要 有 以 下 核心 参数 : 

тс: 输入 数组 〈 单 通道 、8 位 或 32 位 ) 。 
| dst: 二 值 化 输出 结果 的 矩阵 。 

thresh: ME. 

: maxval: 二 值 化 中 除 0 以 外 的 其 他 值 。 
(type: 二 值 化 类 别 。 主 要 有 以 下 几 种 : 


: THRESH. BINARY 


maxval src(x.y)^thresh 


dst(x.y)= 0 其 他 


: THRESH. BINARY INV 


0 src(x.y)^thresh 


dst(x,y)= maxval 其 他 


: THRESH_TRUNC 


threshold src(x,y)^thresh 


dst(x,y)- 
5 ( J) sre(x,y) 其 他 


: THRESH. TOZERO 


ѕге(х,у) ѕге(х,у)>1һгеѕһ 


dst(x,v)- 0 其 他 


: THRESH. TOZERO INV 


0 src(x,y)^thresh 


dst(x;y)- ѕго(х,у) 其 他 


编写 程序 10-13.py， 对 某 图 像 进行 二 值 化 ， 效 果 如 图 10-18 所 示 。 





#10-13.py 

import cv2 

fn="test3.jpg" 

myimg-cv2.imread(fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 

retval, newimg-cv2.threshold (img,40,255,cv2.THRESH BINARY) 
cv2.imshow('preview',newimg) Е 
Cv2.waitKey () 

CVv2.destroyAllWindows () 



































10.5.2 adaptiveThreshold 


OpenCV 的 adaptiveThreshold 函 数 可 完成 自 适 应 二 值 化 ， 也 可 以 提取 边缘 。Python 调 用 此 方法 的 格式 如 下 : 








cv2.adaptiveThreshold(src, maxValue, adaptiveMethod, thresholdType, blockSize, C[, dst]) — dst 





该 函数 的 核心 参数 如 下 : 
: block, size: 决定 局 部 阀 值 的 block 的 大 小 ，block 很 小 时 ， 如 block_size=3、5、7 时 ， 表 现 为 边缘 提取 函数 。 当 把 block_size 设 为 比较 大 的 值 时 ， 如 block_size=21、51 等 ， 就 是 二 值 化 。 
src: 输入 数组 〈 单 通道 、8 位 或 32 位 ) 。 
| dst: 二 值 化 输出 结果 的 和 矩阵。 
- thresholdType: 二 值 化 类 型 ， 为 THRESH_BINARY 或 THRESH_BINARY_INV， 见 10.5.1 节 对 该 参数 的 说 明 。 


编写 程序 10-14.py， 进 行 二 值 化 ， 效 果 如 图 10-19 所 示 。 


#10-14.ру 

import cv2 

fn-"test3.jpg" 

myimg-cv2.imread(fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
newimg-cv2.adaptiveThreshold(img,255,cv2.ADAPTIVE THRESH MEAN C,cv2.THRESH BINARY,5,2) 
cv2.imshow('preview!',newimg) Е Е Е Е 
Cv2.waitKey () 

Cv2.destroyAllWindows () 
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图 10-18 ”二 值 化 
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10-19  adaptiveThreshold —4& 10, 
程序 10-15.py 演 示 了 通过 二 值 化 提取 边缘 ， 效 果 如 图 10-20 所 示 。 


110-15.py 

import cv2 

fn-"test3.jpg" 

myimg-cv2.imread (fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
newimg-cv2.adaptiveThreshold(img,255,cv2.ADAPTIVE THRESH MEAN C,cv2.THRESH BINARY,51,2) 
cv2.imshow('preview',newimg) Е Е а Е 
Cv2.waitKey () 

Cv2.destroyAllWindows () 
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10-20 ”三 值 化 提取 边缘 


10.6 “插值 与 缩放 


通过 OpenCV 的 resize 函 数 可 实现 插值 与 缩放 。Python 调 用 该 函数 的 格式 如 下 : 














cv2.resize(src, dsize[, dst[, fx[, fy[, interpolation]]]]l) — dst 








该 函数 的 interpolation 参 数 可 分 别 设 为 INTER_NEAREST (最 近邻 插值 ) . INTER LINEAR ( 双 线 性 插值 ) . INTER AREA (像素 关系 重 采 样 ) ` INTER СОВІС OY 377538 (B). 、 
INTER LANCZOSA (8x 8 像素 邻 域内 Lanczos 插 值 ) 。 


程序 10-16.py 演 示 了 插值 与 缩放 的 操作 ， 效 果 如 图 10-21 所 示 。 








# -*- coding: utf-8 -*- 

#10-16.ру 

import cv2 

fn-2"test112.3jpg" 

img-cv2.imread (fn) 

w-img.shape[1] 

h-img.shape[0] 

# 放 大 , 双 立 方 插值 
newimgl-cv2.resize (img, (w*2,h*2),interpolation=cv2.INTER CUBIC) 
# 放 大 ， 最 近邻 插值 
newimg2-cv2.resize (img, (w*2,h*2),interpolation=cv2.INTER NEAREST) 
# 放 大 ， 像 素 关系 重 采 样 
newimg3-cv2.resize (img, (w*2,h*2),interpolation-cv2.INTER AREA) 
# 缩 小 ， 像 素 关 系 重 采样 
newimg4=cv2.resize (іта, (300,200),interpolation-cv2.lINTER AREA) 
cv2.imshow('previewl',newimgl) i 
cv2.imshow('preview2',newimg2) 

cv2.imshow('preview3',newimg3) 

cv2.imshow('preview4',newimg4) 

Cv2.waitKey () 

Cv2.destroyAllWindows () 





































































































110-21 ”插值 与 缩放 


10.7 1583 


10.7.1 仿 射 原理 
仿 射 变换 ， 又 称 仿 射 映射 ， 是 指 在 几何 中 ， 一 个 向 量 空间 进行 一 次 线性 变换 并 接 上 一 个 平移 ， 变 换 为 另 一 个 向 量 空间 ， 它 可 对 图 像 进 行 缩放 、 旋 转 、 平 衡 等 操作 。 
一 个 对 向 量 X 平 移 ?， 与 旋转 放大 缩小 A 的 仿 射 映射 为 : 


y=AX+b 


上 式 在 齐 次 坐标 上 ， 等 价 于 下 面 的 式 子 : 


为 了 表示 仿 射 变换 ， 需 要 使 用 齐 次 坐标 ， 即 用 三 维 向 量 (x, y, 1) 表示 二 维 向 量 ， 对 于 高 维 来 说 也 是 如 此 。 按 照 这 种 方法 ， 就 可 以 用 和 矩 阵 乘 法 表示 变换 。x =x+tx; у =y+ty 变 为 


° a 1 O £ YP 


у|#|0 1 ; y 
1 О 0 2741 


在 矩阵 中 增加 一 列 与 一 行 ， 除 右 下 角 的 元 素 为 1 外 其 他 部 分 均 填 充 为 0， 通 过 这 种 方法 ， 所 有 的 线性 变换 都 可 以 转换 为 仿 射 变换 。 例 如 ， 上 面 的 旋转 和 矩阵 可 变 为 


cos -sin 0 
sin cos 0 
0 0 ] 


通过 这 种 方法 ， 使 用 与 前 面 一 样 的 矩阵 乘积 可 以 将 各 种 变换 无 颖 地 集成 到 一 起 。 


10.7.2” 仿 射 变换 实例 
1.warpAffine 


OpenCV 的 warpAffine 函 数 可 实现 仿 射 变换 ，Python 调 用 此 方法 的 格式 如 下 : 





cv2.warpAffine(src, M, dsize[, dst[, f?lags[, borderMode[, borderValue]]]]) — dst 


该 函数 中 的 参数 M 表 示 变 换 和 矩阵 。 函 数 使 用 以 下 变换 公式 : 


dst, y)=src(M11x+M12y+M13, M21x+M22y+M33) 


OpenCV 的 getRotationMatrix2D 函 数 计算 二 维 旋转 变换 矩阵 ，Python 调 用 此 函数 的 格式 如 下 : 





cv2.getRotationMatrix2D(center, angle, scale) 一 retval 





a p (1-а) * center * x-p * center * y 
-p Q p -Eemer Xr (1-0) * center · y 


其 中 ，o 与 B 的 计算 公式 如 下 : 
х=ѕсаје * cos angle 
В=ѕсаіе : sin angle 


程序 10-17.py 演 示 了 仿 射 变换 完成 缩小 并 旋转 的 操作 ， 效 果 如 图 10-22 所 示 。 





10-22 仿 射 变换 








# -*- coding: utf-8 -*- 

#10-17.ру 

import cv2 

fn-"test3.Jjpg" 

img-cv2.imread(fn) 

w=img.shape [1] 

h=img.shape [0] 

# 得 到 仿 射 变换 和 矩阵， 完成 旋转 

PPR 

mycenter- (h/2,w/2) 

# 旋 转角 度 

myangle-90 

FERE 

myscale=0.5 

# 仿 射 变换 完成 缩小 并 旋转 

transform matrix-cv2.getRotationMatrix2D (mycenter,myangle,myscale) 
newimg-cv2.warpAffine (img, transform matrix, (w,h)) 
cv2.imshow('preview!',newimg) Е 
Cv2.waitKey () 

CVv2.destroyAllWindows () 









































10.8.1 ”透视 投影 原理 


三 维 计算 机 图 形 学 中 另外 一 种 重要 的 变换 是 透视 投影 。 与 平行 投影 沿 着 平行 线 将 物体 投 景 


外 到 图 像 平面 上 不 同 ， 透 视 投 影 是 指 从 投影 中 心 这 一 点 发 出 的 直线 将 物体 投影 到 图 像 平面 上 。 
影 中 心 越 远 的 投影 越 小 ， 距 离 越 近 的 投影 越 大 。 


X 2 = 
最 简单 的 透视 投影 是 将 投影 中 心 作为 坐标 原点 ，z= 1 作为 图 像 平面 ， 这 样 投影 变换 为 ; ”2 ; ”一 


， 用 齐 次 坐标 表示 如 下 : 
X3 (í $ 0 о\үх 
»x| |o 1 0 оу 
<c 0 0 1 O0 2 
W, 0 0 1 0 ] 


上 述 乘法 的 计算 结果 是 (Xc, yc, Zc, Wc) = (х, y, 2, Z) 。 乘 法 计算 完毕 之 后 ， 通 常 齐 次 元 素 wc 并 不 为 1， 所 以 为 了 映射 回 真实 平面 需要 进行 齐 次 除法 ， 即 每 个 元 素 都 除 以 wc: 


Pa X./w, 
y' -—] 28 е / W. 
aF 一 A^ 

Z e Гм * 


更 加 复杂 的 透视 投影 可 以 与 旋转 、 缩 放 、 平 移 、 切 变 等 组 合 在 一 起 对 图 像 进行 变换 。 


10.8.2 ”透视 投影 实例 


1.WarpPerspective 


OpenCVv 提 供 了 WarpPerspective 函 数 ， 可 对 图 像 进行 透视 变换 。Python 调 用 此 函数 的 格式 如 下 : 


这 就 意味 着 距离 投 





cv2.warpPerspective (src, M, dsize[, dst[, flags[, borderMode[ 








, borderValue]]]]) — dst 





该 函数 的 主要 参数 如 下 : 
: map matrix: 3X3 X J&4E Fe, 


. flags: 插值 方法 和 以 下 开关 选项 的 组 合 ， 有 以 下 两 种 : 





- CV_WARP_FIIL OUTILIERS: 填充 所 有 缩小 图 像 的 像素 。 如 果 部 分 像素 落 在 输入 图 像 的 边界 外 ， 那 么 它们 的 值 设 定 为 fllval。 


- CV_WARP_INVERSE_MAP: 指定 mattix 是 输出 图 像 到 输入 图 像 的 反 变 换 ， 因 此 可 以 直接 用 来 做 像素 插值 。 否 则 ， 函 数 从 map_matrix 得 到 反 变 换 。 


: fillval: 用 来 填充 边界 外 面 的 值 。 


该 函数 对 源 图 像 进行 转换 的 计算 公式 如 下 : 


Мих + Мру + Мз Мах+М»әу+ Мз» 


Мзх + Мзу + Мз Msix + Məy + M33 


dst(x,y)=src 


2.GetPerspectiveTransform 


OpenCVv 提 供 了 GetPerspectiveTransform 函 数 ， 以 四 边 形 的 4 个 点 计算 透射 变换 。Python 调 用 该 函数 的 格式 如 下 : 





cv2.getPerspectiveTransform(src, dst) 一 retval 





该 函数 的 主要 参数 如 下 : 
stc: 输入 IDR 的 四 边 形 顶 点 坐标 。 
dst: 输出 的 相应 的 四 边 形 顶 点 坐标 。 


该 函数 对 3x 3 的 透射 变换 矩阵 的 计算 公式 如 下 : 


[Xi Xi 
ѓу; | =тар matrix * | Yi 
f; ] 
Нн, dst(/)-(x, y). sre(ü=(x; y), i=0,1,2 


3. 透 射 变 换 矩 阵 计 算 实例 


程序 10-18.py 演 示 了 如 何 计算 透射 变换 矩阵 。 








# -*- coding: utf-8 -*- 

#10-18.ру 

import cv2 

import numpy as np 

fn-2"test112.3jpg" 

img-cv2.imread(f 

w-img.shape[1] 

ues shape[0] 
145] 18-2 E ARAB E 
src-np.array([[0,0],[w-1,0], [w-1,h-1], [O0,h-1]], dtype = np.f10oat32) 

dstenp.array([[w*0.08,h*0.01], [w*0.8, h*0.25], [w*0.8,h*0.9], [w*0.05,n*0.8] ], dtype = np.£10oat32) 

transform matrix-cv2.getPerspectiveTransform(src,dst) 

# 输 出 透射 变换 和 珑 阵 

print transform matrix 

Cv2.waitKey () 

Cv2.destroyAllWindows () 











n) 









































云 行程 序 10-18.py， 输 出 透射 变换 矩阵， 结果 如 下 所 示 : 





[[ 8.98634886e-01 -5.70473560e-02 5.12000008e+01] 
[ 1.66413868e-01 7.60111420e-01 3.59999990e+00] 
[ 3.46695559e-04 -1.11420617e-04 1.00000000e+00]] 





程序 10-19.py 演 示 了 透射 变换 ， 效 果 如 图 10-23 所 示 。 








# -*- coding: utf-8 -*- 
#10-19.ру 
import cv2 
import numpy as np 
fn-2"test112.3jpg" 

img-cv2.imread(fn) 
w-img.shape[1] 
DEO shape [0] 

14:5] 18-2 E ARAB E 

src-np.array([[0,0],[w-1,0], [w-1,h-1], [O0,h-1]], dtype = np.f10oat32) 
dst-np.array([[w*0.08,h*0.01], [w*0.8,h*0.25] , [w*0.8,h*0.9], [w*0.05, h*0.8]], dtype = np.f1oat32) 
transform matrix-cv2.getPerspectiveTransform(src,dst) 
print transform matrix 
# 透 射 变换 完成 变形 
newimg-cv2.warpPerspective (img,transform matrix, (w,h)) 
cv2.imshow('preview',newimg) и 
Cv2.waitKey () 

Cv2.destroyAllWindows () 






























































8 | preview 





810-23 ”透射 变换 


在 计算 机 领域 中 ， 灰 度 (Gray Scale) 数字 图 像 是 每 个 像素 只 有 一 个 采样 颜色 的 图 像 。 这 类 图 像 通常 显示 为 从 最 暗黑 色 到 最 亮 的 白色 的 灰 度 ， 尽 管理 论 上 这 个 采样 可 以 是 不 同 深浅 的 任何 颜色 ， 甚 至 可 
以 是 不 同 亮度 上 的 不 同 颜色 。 灰 度 图 像 与 黑白 图 像 不 同 ， 在 计算 机 图 像 领 域 中 黑白 图 像 只 有 黑白 两 种 颜色 ， 灰 度 图 像 在 黑色 与 白色 之 间 还 有 很 多 级 的 颜色 深度 。 用 于 显示 的 灰 度 图 像 通常 用 每 个 采样 像素 8 位 
的 非 线 性 尺度 来 保存 ， 这 样 就 可 以 有 256 种 灰 度 ( 即 2 的 8 次 方 =256) 了 。 这 种 精度 刚刚 能 够 避免 可 见 的 条 带 失 真 ， 并 且 非 常 易 于 编程 。 灰 度 图 像 是 一 种 具有 从 黑 到 白 256 级 灰 度 色 阶 或 等 级 的 单 色 图 像 。 该 
图 像 中 的 每 个 像素 均 用 8 位 数据 表示 ， 因 此 像素 点 值 介 于 黑白 间 的 256 种 灰 度 中 的 一 种 。 该 图 像 只 有 灰 度 等 级 ， 没 有 颜色 的 变化 。 








灰 度 变换 是 基于 点 操作 的 增强 方法 ， 它 将 每 一 个 像素 的 灰 度 值 按照 一 定 的 数学 变 新 的 灰 度 值 ， 它 能 增强 图 像 ， 扩 展 图 像 的 对 比 度 ， 使 图 像 变 清晰 ， 使 其 特征 更 加 突出 ， 灰 度 非 线 性 变 





损 是 指 将 灰 度数 据 按 照 经 验 数据 或 某 种 算术 非 线 性 关系 进行 变换 后 再 显示 。 灰 度 变换 是 基于 点 操作 的 增强 方法 ， 它 将 每 一 个 像素 的 灰 度 值 按 
对 比 度 增强 。 


对 数 变 换 对 图 像 的 低 亮度 区 有 较 大 的 扩展 而 对 高 亮度 区 进行 压缩 ， 简 言 之 就 是 增强 了 低 值 灰 度 的 图 像 细 节 ， 灰 度 非 线性 变换 公式 如 下 : 


dst=Cloe(1 +src) 


程序 10-20.py 演 示 了 对 数 变换 ， 效 果 如 图 10-24 所 示 。 


照 一 


ANS 


rm 


AE 


的 数学 变 


换 


公 


式 转换 为 





个 新 的 灰 度 值 ， 如 增强 处 理 中 的 





#10-20 .py 

import cv2 

import numpy as np 

fn="test3.jpg" 

myimg-cv2.imread (fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
jg img=np.array (40*np.log(img-*1),np.uint8) 
cv2.imshow('src',img) 
cv2.imshow('dst',jg img) 

Cv2.waitKey () 

Cv2.destroyAllWindows () 





























观察 图 10-24， 左 边 的 是 经 过 非 线性 变换 操作 的 图 ， 右 边 的 是 原 图 ， 左 边 的 低 亮 度 区 更 清晰 。 


图 10-24 对 数 变换 





分 段 线性 变换 将 图 像 的 值 域 分 成 多 个 值 域 并 进行 不 同 的 线性 变换 计算 ， 可 以 压缩 某 部 分 灰 度 区 ， 扩 展 另 一 部 分 灰 度 区 间 ， 下 面 以 两 个 区 间 为 例 ， 编 写 程序 进行 变换 ， 如 程序 10-21.py 所 示 。 





# -*- coding: utf-8 -*- 

# 分 段 线性 变换 

#code:myhaspl@myhaspl .com 

#10-21 .py 

import cv2 

import numpy as np 

fn="test4.jpg" 

myimg=cv2 .imread (Ёп) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
w=img.shape [1] 

h=img.shape [0] 
newimg=np. zeros ((h,w),np.uint8) 

175. 
Ds тіп=0 

Ds internal-804 T й 
Ds max-255 

# E| 25 
Dd min=0 

Dd internal=160# 中 间 

Dd max-255 

for m in xrange (h): 

for n in xranoe (w): 























if img[m,n]»Ds min and img[m,n]«-Ds internal: 
newimg[m,n]-int ((Dd internal-Dd min)/(Ds internal-Ds min)*(img[m,n]-Ds тіп) +ра min) 








else: 





newimg[m,n]-int ( (ра max-Dd internal)/(Ds max-Ds internal)*(img[m,n]-Ds internal)-*Dd internal) 


princ ",", 
cv2.imshow('src',img) 
cv2.imshow('dst',newimg) 
Cv2.waitKey () 
CVv2.destroyAllWindows () 














观察 图 10-25， 左 边 是 经 过 分 段 线性 变换 的 图 像 ， 右 边 是 原 图 像 ， 通 过 压缩 高 亮度 区 ， 扩 展 低 亮度 区 ， 使 图 像 的 比 对 度 变 得 更 强 。 





图 10-25 ”分 段 线 性 变换 


程序 10-21.py 的 代码 中 ， 各 变量 的 含义 如 下 : 
: Ds_min 为 源 区 段 的 最 小 值 域 。 
: Ds_intetnal 为 源 区 段 的 中 间 分 界 值 。 
: Ds_max 为 源 区 段 的 最 大 值 域 。 
: Dd_min 为 目标 区 段 的 最 小 值 域 。 
: Dd_intermal 为 目标 区 段 的 中 间 分 界 值 。 


: Dd_max 为 目标 区 段 的 最 大 值 域 。 

10.94 ”指数 变换 
指数 变换 的 作用 是 扩展 图 像 的 高 灰 度 级 、 压 缩 低 灰 度 级 ， 可 用 于 亮度 过 高 的 图 像 。 指 数 变换 的 基本 表达 式 如 下 : 
у=Ь©®*-®-1 


其 中 ， 参 数 b、c 控 制 曲线 的 变换 形状 ， 参 数 a 控 制 曲线 的 位 置 。 指 数 变 换 与 对 数 变 换 的 关系 如 图 10-26 所 示 。 


程序 10-22.py 演 示 了 对 太阳 图 像 进行 指数 变换 ， 使 低 亮 度 区 (温度 较 低 的 区 域 ) 不 再 显示 ， 突 出 亮度 区 (温度 较 高 的 区 域 )， 效 果 如 图 10-27 所 示 。 








# -*- coding: utf-8 -*- 

# 指 数 非 线性 变换 

#code:myhaspl@myhaspl .com 

#10-22 .py 

import cv2 

import numpy as np 

fn="test5.jpg" 

myimg=cv2 .imread (Ёп) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
b-1.2 i 

c-0.2 

a-0.2 
newimg-np.array (np.power (b, c* (img-a))-1,np.uint8) 
cv2.imshow('src',img) 
cv2.imshow('dst',newimg) 

Cv2.waitKey () 

Cv2.destroyAllWindows () 




















910-26 ”指数 变换 与 对 数 变换 
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图 10-27 指数 变换 


观察 图 10-27， 左 边 是 指数 变换 后 生成 的 图 ， 右 边 是 原 图 ， 左 图 的 高 亮度 区 显示 得 到 突出 ， 达 到 了 预期 的 效果 。 


用 来 增加 许多 图 像 的 全 局 对 比 度 ， 尤 其 是 当 图 像 的 有 用 数据 的 对 比 度 相 当 接 近 的 时 候 。 通 过 这 种 方法 ， 亮 度 可 以 更 好 地 在 直方 图 上 分 布 。 这 样 就 可 以 用 于 增强 局 部 的 对 比 度 而 不 影响 


直方 图 均衡 化 通常 
灰 度 图 像 上 使 用 直方 图 均衡 化 的 方法 如 下 : 


整体 的 对 比 度 。 在 灰 


设 有 一 灰 度 图 像 ， 让 nj 表示 灰 度 i 出 现 的 次 数 ， 这 样 图 像 中 灰 度 为 的 像素 出 现 的 概率 如 下 : 


p)", тє 0,1-1 


其 中 ，! 是 图 像 中 所 有 的 灰 度 数 ，n 是 图 像 中 所 有 的 像素 数 ，p 实 际 上 是 图 像 的 直方 图 ， 归 一 化 到 0http://www.hzcourse.comy/resource/readBook? 
path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..1。 把 c 作 为 对 应 于 p 的 累计 概率 函数 ， 定 义 如 下 : 


ci) =F p.) 


j-0 
其 中 ，< 是 图 像 的 累计 归 一 化 直方 图 。 


然后 ， 创 建 一 个 形式 为 y=TC0 的 变化 ， 对 于 原始 图 像 中 的 每 个 值 它 都 产生 一 个 y， 这 样 y 的 累计 概率 函数 就 可 以 在 所 有 值 学 围 内 进行 线性 化 ， 转 换 公 式 定 义 如 下 : 


х;)=с(1) 


上 式 中 ，TT 将 不 同 的 等 级 映射 到 0http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..1 域 ,为 了 将 这 些 值 映 射 回 它 们 最 初 的 
域 ， 需 要 在 结果 上 应 用 下 面 的 简单 变换 : 





уку * (max-min)*min 


此 外 ， 可 将 上 述 方法 分 别 用 于 图 像 RGB 颜色 值 的 红色 、 绿 色 和 蓝 色 分 量 ， 实 现 对 彩色 图 像 的 直方 图 均衡 化 。 


Python 可 调用 OpenCV 的 equalizeHist 函 数 实现 直方 图 均衡 化 ， 调 用 格式 如 下 : 





cv2.equalizeHist(src[, dst]) — dst 


程序 10-23.py 演 示 了 直方 图 均衡 化 ， 效 果 如 图 10-28 所 示 。 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl .com 
#10-23.ру 

import cv2 

fn-"testl.jpg" 
myimg-cv2.imread (fn) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
newimg-cv2.equalizeHist (img) Е 
cv2.imshow('src',img) 
cv2.imshow('dst',newimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 

















图 10-28 ”直方 图 均衡 化 


观察 图 10-28， 右 边 是 原 图 ， 左 边 是 经 过 增强 化 的 图 。 


再 看 程序 10-24.py， 该 程序 实现 了 直方 图 均衡 化 的 具体 算法 ， 效 果 如 图 10-29 所 示 。 








# -*- coding: utf-8 -*- 

#code :myhaspl@myhasp1. com 

# 直 方 图 均衡 化 

#10-24.py 

import cv2 

import numpy as np 
fn-"test5.jpg" 
myimg-cv2.imread (fn) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
h-img.shape[0] 

w-img.shape[1] 
newimg-np.zeros((h,w),np.uint8) 
scount-0.0 

# 原 始 图 像 灰 度 级 

scol={} 

# 目 标 图 像 灰 度 级 

асо1={ 














Рѕ= { } 
RHMZ 
Cs={} 
# 统 计 原 始 图 像 灰 度 级 
for m іп xrange (h): 
for n in xrange(w): 
scol[img[m,n]]-scol.setdefault (img[m,n], 0) +1 
scount-4-1 
# 计 算 原始 图 像 频 度 
for key in scol: 
Ps [key]=scol [key] /scount 
# 计 算 图 像 灰 度 的 离散 随机 变量 累计 概率 
keys-Ps.keys () 
keys.sort() 
for skey in scol: 
Cs.setdefault (skey, 0) 
for key in keys: 
f key»skey : 
break 
Cs [skey] *-Ps [key] 
# 建 立 输 入 与 输出 之 间 的 映射 
d max-np.max (keys) 
d min-np.min (keys) 
for skey in keys: 
dcol[skey]-int ((d max-d min)*Cs[skey]-*d min) 
for m in xrange(h): | i i 
for n in xrange(w): 
newimg [m,n]-dcol [img [m,n]] 
cv2.imshow('src',img) 
cv2.imshow('dst',newimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 























H- 











910-29 ”直方 图 均衡 化 


观察 图 10-29， 左 图 为 均衡 化 后 的 图 ， 右 边 为 原 图 ， 左 图 的 全 局 对 比 度 增 强 了 。 





Н(х, УЕРЭ (3х3, 5х5, 7х7) 的 不 同 而 不 同 。 假 设 为 3x3， 则 有 9 个 像素 参加 运算 。 可 以 有 以 下 几 种 : 


| | +L ] | | ] l ] 
| 
| 1 |] " L 2 3] ] 


OpenCyV 提 供 的 blur 函 数 可 进行 归 一 化 块 滤波 操作 ，Python 调 用 该 函数 的 格式 如 下 : 
cv2.blur(src, ksize[, dst[, anchor[, borderType]]]) — dst 


LEA, УБА ЕНУ ГАП ВОЛЕ (ТОКИ БАД) : 


1 
E = —— À Š 0 | 
ksize.width X ksize.height ... 





程序 10-25.py 演 示 了 归 一 化 块 滤波 对 高 斯 噪声 的 处 理 ， 效 果 如 图 10-30 所 示 。 


# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl . com 
# 归 一 化 块 滤波 

#10-25.ру 

import cv2 

import numpy as np 
fn-"test3.jpg" 
myimg-cv2.imread (fn) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
# 加 上 高 斯 噪声 

param-20 

# 灰 阶 范围 

grayscale-256 














w-img.shape[l1] 

h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 

for x in xrange(0,h): 

for y in xrange(0,w,2): 
rl-np.random.random sample () 
r2-np.random.random sample () 
zl-param*np.cos (2*np.pi*r2)*np.sqr! 
z2-param*np.sin(2*np.pi*r2)*np.sqri 
fxy-int (img [x, y]-*z1) 

fxyl-int (img[x, у+1]+22) 

Jf (x, y) 

if #ху<0: 

fxy val-0 

elif fxy»grayscale-1: 
fxy val-grayscale-1 































































































else 
fxy val-fxy 
8f (x, y+1) 
if fxyl<0 
fxyl val=0 
elif fxyl»grayscale-1: 











fxyl val-grayscale-1 











fxyl val-fxyl 
newimg[x,y]-fxy val 
newimg[x,y4*1]-fxyl val 
PERAR 
lbimg=cv2.blur (newimg, (3, 3) ) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',lbimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 


























图 10-30” 归 一 化 块 滤波 


观察 图 10-30， 左 边 为 经 过 归 一 化 块 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效 果 较 好 。 


当然 ， 也 可 以 使 用 第 3 个 脉冲 响应 函数 ， 如 下 : 


l 2 1 
2 4 2 
L OG 1 


l 
16 


程序 10-26.py 演 示 了 使 用 第 3 个 脉冲 响应 函数 ， 应 用 归 一 化 块 滤波 对 高 斯 噪声 进行 处 理 ， 效 果 如 图 10-31 所 示 。 











# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl .com 
#10-26.ру 

import cv2 

import numpy as np 








fn-"test3.Jjpg" 

myimg-cv2.imread(fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
#0 Eg AR # 

param-20 

# 灰 阶 范围 

grayscale-256 

w=img.shape [1] 

h=img.shape [0] 
newimg-np.zeros((h,w),np.uint8) 

for x in xrange(0,h): 

for y in xrange (0,w,2): 
rl-np.random.random sample () 
r2-np.random.random sample () 
zl-param*np.cos (2*np.pi*r2)*np.sqr 
z2-param*np.sin(2*np.pi*r2)*np.sqr 
fxy-int (img[x, y]-*z1) 

fxyl-int (img[x, y*1]-*z2) 

$f (x, y) 

i ху<0: 

fxy уа1=0 

elif fxy»grayscale-1: 
fxy val-grayscale-] 


























( (-2) *np.1og (r1)) 
( (-2) *np.1og (r1)) 































































































else 
fxy val-fxy 
tf (x, y+1) 
if #ху1<0 
fxyl уа1=0 
elif fxyl»grayscale-1: 





fxyl val-grayscale-1 

















fxyl val-fxyl 
newimg[x,y]-fxy val 
newimg[x,y*1]-fxy1l val 

print "-", Е 

PERAR 

# 图 像 四 个 边 的 像素 处 理 

lbimgenp.zeros ((h*2,w-*2),np.float32) 

tmpimg=np. zeros ((h*2,w*2)) 

myh=h+2 

myw=w+2 

tmpimg[1:myh-1, 1:myw-1]=newimg [0 :myh, 0 :myw] 

# 用 第 3 个 脉冲 响应 函数 

a=1/16.0 

kernel-a*np.array([[1,2,1],[2,4,2], [1,2,1]]) 

for y in xrange (1l,myh-1): 

for x in xrange (1,myw-1): 

lbimg[y,x]-2np.sum(kernel*tmpimg[y-1:y42,x-1:x-*2]) 

print t". 

resultimg-np.array (lbimg[1:myh-1,1:myw-1],np.uint8) 

cv2.imshow('src',newimg) 

cv2.imshow('dst',resultimg) 

Cv2.waitKey () 

Cv2.destroyAllWindows () 





















































观察 图 10-31， 左 图 为 归 一 化 块 滤波 后 的 效果 ， 右 图 为 原 图 ， 左 图 去 除 噪声 的 效果 较 好 。 


2. 椒 盐 噪声 滤波 


归 一 化 块 滤波 对 椒盐 噪声 仍 有 一 定 的 滤波 效果 ， 但 需要 将 作用 域 扩大 (比如 : 设 成 5x5) ， 图 像 会 更 模糊 ， 效 果 较 好 。 


程序 10-27.py 演 示 了 应 用 归 一 化 块 滤波 对 椒盐 噪声 进行 处 理 ， 效 果 如 图 10-32 所 示 。 





# -*- coding: utf-8 -*- 

#code :myhaspl@myhasp1 . com 

#10-27.py 

import cv2 

import numpy as np 

fn="test3.jpg" 

myimg-cv2.imread (fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 

#20 EN ЗЕ E 

# 灰 阶 范围 

w=img.shape [1] 

h=img.shape [0] 

newimg=np.array (imo) 

FRÉ EY 

noisecount=100000 

for k in xrange (0,noisecount) : 
xi-int (np.random.uniform(0,newimg.shape[1])) 
xj-int (np.random.uniform(0,newimg.shape[0])) 
newimg[xj,xi]-255 

PERAR 

lbimg=cv2.blur (newimg, (5, 5) ) 

cv2.imshow('src',newimg) 

cv2.imshow('dst',lbimg) 

Cv2.waitKey () 

CVv2.destroyAllWindows () 


























观察 图 10-32， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 去 噪 效果 较 好 。 


图 10-31 


— M 1 





用 第 3 个 脉冲 响应 函数 归 一 化 块 滤波 





邻 域 平均 法 可 有 效 消 除 高 斯 噪声 ， 其 数学 公式 如 下 : 


5 为 邻 域 , 不 包括 (х, y) 本 身 的 像素 点 ， 


半径 为 1: 


程序 10-28.py 演 示 了 邻 域 平均 法 对 椒盐 噪声 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl .com 
# 领 域 平均 法 滤波 3*3 

#10-28 .py 

import cv2 

import numpy as np 
fn="test3.jpg" 
myimg-cv2.imread (fn) 














核 h(x，y) 可 为 : 


img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 


# 加 上 椒盐 噪声 
param=20 

# 灰 阶 范围 
w-img.shape[1] 
h-img.shape[0] 
newimg-np.array (img) 
PRESE 


滤波 进行 处 理 的 操作 ， 





图 10-32” 归 一 化 块 滤波 对 椒盐 噪声 进行 处 理 


S (х,у) T L b3 f (x—k,y-l ) 


M 


(KNES 


O = © 
— — — 
о 一 о 


效果 如 图 10-33 所 示 。 


noisecount-100000 
for k in xrange (0,noisecount): 
xi-int (np.random.uniform(0,newimg.shape[1])) 
xj-int (np.random.uniform(0,newimg.shape[0])) 
newimg[xj,xi]-255 
TR HA AU 
# 脉 冲 响 应 函数 ， 核 函数 
# 图 像 四 个 边 的 像素 处 理 
lbimg=np. zeros ((h*2,w*2),np.float32) 
tmpimg=np. zeros ( (h+2,w+2)) 
myh=h+2 
myw=w+2 
tmpimg[1:myh-1, 1 :myw-1]=newimg [0 :myh, 0 :myw] 
# 用 领域 平均 法 的 〈 设 半径 为 2) 脉冲 响应 函数 
a-1/8.0 
kernel-a*np.array([[1,1,1], [1,0,1], [1, 1,1] ]) 
for y in xrange (1,myh-1): 
for x in xrange (1,myw-1): 
lbimg[y,x]-7np.sum(kernel*tmpimg[y-1:y*42,x-1:x-2]) 
print Ta 
resultimg=np.array (lbimg[1:myh-1,1:myw-1],np.uint8) 
cv2.imshow ('src',newimg) 
cv2.imshow('dst',resultimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 



























































10-33 ”领域 平均 法 对 椒盐 噪声 滤波 


观察 图 10-33， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 


程序 10-29.py 演 示 了 邻 域 平 均 法 对 高 斯 噪声 进行 滤波 的 操作 ， 效 果 如 图 10-34 所 示 。 








# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl . com 
# 领 域 平均 法 滤 疲 
#10-29.ру 
import cv2 
import numpy as np 
fn-"test3.Jjpg" 
myimg-cv2.imread (Ёп) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
io LAIRE i 
param-20 
# 灰 阶 范围 
grayscale-256 
w-img.shape[1] 
h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 
for x in xrange (0,h): 
for y in xrange (0,w,2): 
rl-np.random.random sample () 
r2-np.random.random sample () 
zl-param*np.cos (2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 
z2-param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 
fxy-int (img [x, y] +z1) 
fxyl-int (img[x, у+1]+22) 
$f (x, y) 
if #ху<0: 
fxy val-0 
elif fxy»grayscale-1: 
fxy val-grayscale-1 










































































else: 








fxy val-fxy 


























8f (х, y+1) 
if #ху1<0: 
Еху1 val-0 
elif fxyl»grayscale-1: 





fxyl val-grayscale-1 
else: 
fxyl val-fxyl 
newimg[x,y]-fxy val 
newimg[x,y*1]-fxyl val 
print "ыт, n 
# 领 域 平均 法 去 品 
# 脉 冲 响应 函数 ， 核 函数 
# 图 像 四 个 边 的 像素 处 理 
lbimg=np. zeros ((h42,w-*2),np.float32) 
tmpimg=np. zeros ( (h+2,w+2)) 
myh=h+2 
myw=w+2 
tmpimg[1:myh-1,1:myw-1]-newimg[0:myh, 0:myw] 
# 用 领域 平均 法 的 〈 设 半径 为 2) 脉冲 响应 函数 
a=1/8.0 
kernel-a*np.array([[1,1,1], [1,0,1], [1, 1,1] ]) 
for y in xrange (1,myh-1): 
for x in xrange (1,myw-1): 
lbimg[y,x]-2np.sum(kernel*tmpimg[y-1:y*2,x-1:x-*2]) 
print ".", 
resultimg-np.array (lbimg[1:myh-1,1:myw-1],np.uint8) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',resultimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 



















































































10-34 ФР) Жж] Ге P OE 


观察 图 10-34， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 





中 值 滤波 与 邻 域 平 均 法 类 似 ， 但 计算 的 是 中 值 ， 而 不 是 平均 值 。 具 体 算法 是 : 将 图 像 的 每 个 像素 用 邻 域 (以 当前 像素 为 中 心 的 正方 形 区 域 ) 像素 的 中 值 来 代 蔡 。 





4 -*- coding: utf-8 -*- 

#code:myhaspl@myhaspl .com 

ip d£ 

110-30.py 

import cv2 

import numpy as np 

fn-2"test3.jpg" 

myimg-cv2.imread (fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 

# 加 上 椒盐 噪声 

# 灰 阶 范围 

w-img.shape[1] 

h-img.shape[0] 

newimg-np.array (img) 

# 嗓 声 点 数量 

noisecount=50000 

for k in xrange (0,noisecount): 
xi-int (np.random.uniform(0,newimg.shape[1])) 
xj-int (np.random.uniform(0,newimg.shape[0])) 























newimg[xj,xi]-255 


TX A 
# 脉 冲 响应 函数 ， 核 函数 
# 图 像 四 个 边 的 像素 处 理 





lbimg=np. zeros ((h*2,w-*2),np.float32) 











tmpimg=np.zeros ( (h+2,w+2) ) 

myh=h+2 

myw=w+2 
tmpimg[1:myh-1,1:myw-1]-newimg[0:myh, 0:myw] 
# 用 中 值 法 

for y in xrange (1,myh-1): 


for x in xrange (1,myw-1): 

lbimg[y,x]-np.median (tmpimg[y-1:y*2,x-1:x*2]) 
prine "iU". 

resultimg-np.array (lbimg[1:myh-1,1:myw-1],np.uint8) 
cv2.imshow('src',newimg) 

cv2.imshow('dst',resultimg) 

Cv2.waitKey () 

Cv2.destroyAllWindows () 














观察 图 10-35 可 发 现 ， 中 值 滤波 忽略 了 较 高 阶 灰 度 和 较 低 阶 灰 度 ， 直 接 取 中 值 ， 可 以 有 效 地 过 滤 椒 盐 噪声 。 





图 10-35 PŽ 


此 外 ， 也 可 以 在 Python 中 调用 OpenCVv 的 medianBlur 函 数 实现 中 值 滤波 ， 调 用 格式 如 下 : 





cv2.medianBlur(src, ksize[, dst]) — dst 








程序 10-31.py 演 示 了 medianBlur 函 数 实现 中 值 滤波 的 操作 过 程 ， 效 果 如 图 10-36 所 示 。 





4 -*- coding: utf-8 -*- 

#code :myhaspl@myhasp1 . com 

ip dE JR 

#10-31.ру 

import cv2 

import numpy as np 

fn-"test3.Jjpg" 

myimg-cv2.imread (fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 

# 加 上 椒盐 噪声 

# 灰 阶 范围 

w=img.shape [1] 

h=img.shape [0] 

newimg=np.array (img) 

# 噪 声 点 数量 

noisecount=50000 

for k in xrange (0,noisecount) : 
xi-int (np.random.uniform(0,newimg.shape[1])) 
xj-int (np.random.uniform(0,newimg.shape[0])) 
newimg[xj,xi]-255 

PERAR 

lbimg-cv2.medianBlur (newimg, 3) 

cv2.imshow('src',newimg) 

cv2.imshow('dst',lbimg) 

Cv2.waitKey () 

Cv2.destroyAllWindows () 





























观察 图 10-36， 左 边 为 经 过 中 值 滤波 后 的 图 ， 右 边 为 原 图 ， 


滤波 效果 很 好 。 





810-36 medianBlutr 函 数 实 现 的 中 值 滤 波 


当然 ， 也 可 以 使 用 中 值 滤波 方法 对 高 斯 噪声 进行 滤波 ， 程 序 10-32.py 演 示 了 该 操作 ， 效 果 如 图 10-37 所 示 。 





4 -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl .com 
# 中 值 滤波 
#10-32.ру 
import cv2 
import numpy as np 
fn-"test3.jpg" 
myimg-cv2.imread (fn) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
# 灰 阶 范围 
w-img.shape[1] 
h-img.shape[0] 
newimg-np.array (img) 
io LEMKE 
param-20 
# 灰 阶 范围 
grayscale-256 
w-img.shape[1] 
h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 
for x in xrange(0,h): 
for y in xrange (0,w,2): 
rl-np.random.random sample () 
r2=np. random. random sample () 























z2-param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log (r1 


fxy-int (img[x, у]+21) 
fxyl-int (img[x, у+1]+22) 
$f (x, y) 
if #ху<0: 

fxy val-0 

elif fxy»grayscale-1: 
fxy val-grayscale-1 



























































else 
fxy val-fxy 
8f (x, y+1) 
if fxyl<0 
fxyl val=0 
elif fxyl»grayscale-1: 














fxyl val-grayscale-1 




















fxyl val-fxyl 
newimg[x,y]-fxy val 
newimg[x,y*1]-fxyl val 
PERAR 
lbimg-cv2.medianBlur (newimg, 3) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',lbimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 




















zl-param*np.cos (2*np.pi*r2)*np.sqrt((-2)*np.log (rl 

















观察 图 10-37， 左 边 为 经 过 中 值 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 





高 斯 滤波 是 对 整 幅 图 像 进行 加 权 平 均 的 过 程 ， 每 一 个 像素 点 的 值 ， 都 由 其 本 身 和 邻 域内 的 其 他 像素 值 经 过 加 权 平 均 后 得 到 的 。 高 斯 渡 波 的 具体 操作 是 : 用 一 个 模板 (或 称 卷 积 、 掩 模 ) 扫描 图 像 中 的 每 
一 个 像素 ， 用 模板 确定 的 邻 域 内 像素 的 加 权 平 均 灰 度 值 去 替代 模板 中 心 像素 点 的 值 。 


Python 可 调用 OpenCV 的 GaussianBlur 函 数 进 行 高 斯 滤波 ， 调 用 格式 如 下 : 


cv2.GaussianBlur(src, ksize, sigmaX[, dst[, sigmaY[, borderType]]]) — dst 





程序 10-33.py 演 示 了 高 斯 滤波 ， 效 果 如 图 10-38 所 示 。 





# -*- coding: utf-8 -*- 

#code :myhaspl@myhasp1 . com 

# 高 斯 滤 疲 

110-33.py 

import cv2 

import numpy as np 

fn-"test3.jpg" 

myimg-cv2.imread (Ёп) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
# 灰 阶 范围 

w-img.shape[1] 

h-img.shape[0] 

newimg-np.array (img) 

# 加 上 高 斯 噪声 

param=20 

# 灰 阶 范围 

grayscale-256 

w-img.shape[1] 

h-img.shape[0] 
newimg-np.zeros((h,w),np.uint8) 

for x in xrange(0,h): 

for y in xrange (0,w,2): 
rl-np.random.random sample () 
r2-np.random.random sample () 
zl-param*np.cos (2*np.pi*r2)*np.sqri 
z2-param*np.sin(2*np.pi*r2)*np.sqri 
fxy-int (img [x, y]-*z1) 

fxyl-int (img[x, у+1]+22) 

$f (x, y) 

i ху<0: 

fxy val-0 

elif fxy»grayscale-1: 
fxy val-grayscale-1 































































































else 
fxy val-fxy 
8f (x, y+1) 
if fxyl<0 
fxyl val=0 
elif fxyl»grayscale-1: 




















fxyl val-grayscale-1 














fxyl val-fxyl 
newimg[x,y]-fxy val 
newimg[x,y*1]-fxyl val 














PERAR 
lbimg-cv2.GaussianBlur (newimg, (3,3),1.8) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',lbimg) 





Cv2.waitKey () 
cv2.destroyAllWindows () 





观察 图 10-38， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 





图 10-38 ”高 斯 滤波 





双边 滤波 (Bilateral Filter) 是 一 种 非 线性 的 滤波 方法 ， 是 结合 图 像 的 空间 邻近 度 和 像素 值 相似 度 的 一 种 折衷 处 理 方法 ， 同 时 考虑 空域 信息 和 灰 度 相似 性 ， 达 到 保 边 去 噪 的 目的 。 具 有 简单 、 非 迭代 、 局 
部 的 特点 。 


Python 可 调用 OpenCV 的 bilateralFilter 国 数 来 实现 ， 调 用 格式 如 下 : 





cv2.bilateralFilter(src, d, sigmaColor, sigmaSpace[, dst[, borderType]]) 一 dst 








该 函数 的 核心 参数 如 下 : 
а: 滤波 时 像素 邻 域 的 直径 ，d 为 负 时 由 sigaColor 计 算得 到 ; d>5 时 不 能 实时 处 理 。 
` sigmaColor、sigmaSpace 表 示 颜 色 空间 和 坐标 空间 的 滤波 系数 sigma， 可 简单 的 赋值 为 相同 的 值 ， 其 值 小 于 10 时 几乎 没有 效果 ; 其 值 大 于 150 时 为 油画 效果 。 


程序 10-34.py 演 示 了 双边 滤波 对 椒盐 噪声 的 滤波 ， 效 果 如 图 10-39 所 示 。 





# -*- coding: utf-8 -*- 

#code:myhaspl@myhaspl .com 

# 双 边 滤 波 

110-34.py 

import cv2 

import numpy as np 

fn-"test3.jpg" 

myimg-cv2.imread (fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 

tÀo Ed ibo A 

# 灰 阶 范围 

w=img.shape [1] 

h=img.shape [0] 

newimg-np.array (img) 

PRE CY 

noisecount-50000 

for k in xrange (0,noisecount): 
xi-int (np.random.uniform(0,newimg.shape[1])) 
xj-int (np.random.uniform(0,newimg.shape[0])) 
newimg[xj,xi]-255 

PERAR 

lbimg=cv2.bilateralFilter (newimg, 5,140,140) 

cv2.imshow('src',newimg) 

cv2.imshow('dst',lbimg) 

Cv2.waitKey () 





























Cv2.destroyAllWindows () 








图 10-39 ”双边 滤波 对 椒盐 噪声 的 滤波 


观察 图 10-39， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 


程序 10-35.py 演 示 了 双边 滤波 对 高 斯 噪声 的 滤波 ， 效 果 如 图 10-40 所 示 。 





# -*- coding: utf-8 -*- 

#code:myhaspl@myhaspl .com 

# 双 边 滤波 

#11-35.ру 

import cv2 

import numpy as np 

fn-"test3.Jjpg" 

myimg-cv2.imread (Ёп) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 

# 灰 阶 范围 

w=img.shape [1] 

h=img.shape [0] 

newimg-np.array (img) 

# 加 上 高 斯 噪声 

param-20 

# 灰 阶 范围 

grayscale-256 

w-img.shape[1] 

h-img.shape[0] 

newimg-np.zeros((h,w),np.uint8) 

for x in xrange(0,h): 

for y in xrange(0,w,2): 

rl-np.random.random sample () 
r2-np.random.random sample () 

zl-param*np.cos (2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 
z2-param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1)) 
fxy-int (img [x, у]+21) 

fxyl-int (img[x, у+1]+22) 

$f (x, y) 

if #ху<0: 

fxy val-0 

elif fxy»grayscale-1: 
fxy val-grayscale-1 































































































else 
fxy val-fxy 
8f (x, y+1) 
if fxyl<0 
fxyl val=0 
elif fxyl»grayscale-1: 














fxyl val-grayscale-1 

















fxyl val-fxyl 
newimg[x,y]-fxy val 
newimg[x,y*1]-fxyl val 














PERAR 
lbimg=cv2.bilateralFilter (newimg, 3,140,140) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',lbimg) 











Cv2.waitKey () 
Cv2.destroyAllWindows () 





观察 图 10-40， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 





卷 积 滤波 的 基本 思想 是 : 将 卷 积 核 矩 阵 的 中 心 依 次 放 在 图 像 矩 阵 的 每 一 个 像素 的 位 置 上 ， 将 卷 积 核 的 每 一 个 元 素 分 别 和 图 像 和 矩阵 对 应 位 置 的 元 素 相 乘 ， 最 终 将 乘积 累加 起 来 ， 作 为 卷 积 结果 。 如 图 10- 
41 所 示 。 





图 10-40 ”双边 滤波 对 高 斯 噪声 的 滤波 





910-41 卷 积 滤波 


可 在 Python 中 使 用 OpenCV 的 filter2D 函 数 进行 卷 积 滤波 ， 调 用 格式 如 下 : 


cv2.filter2D(src, ddepth, kernel[, dst[, anchor[, delta[, borderType]]]]) — dst 





程序 10-36.py 演 示 了 卷 积 滤波 对 图 像 的 锐 化 处 理 ， 效 果 如 图 10-42 所 示 。 





# -*- coding: utf-8 -*- 

# 卷 积 滤波 

#code:myhaspl@myhaspl .com 

110-36.py 

import cv2 

import numpy as np 

fn-2"test112.3jpg" 

myimg-cv2.imread (fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
myh-np.array([[0,1,0],[1,-4,1], [0, 1,0] ]) 
jgimg-cv2.filter2D(img,-1,myh) 
cv2.imshow('src',img) 
cv2.imshow('dst',jgimg) 

Cv2.waitKey () 

Ccv2.destroyAllWindows () 






































观察 图 10-42， 左 边 是 经 过 滤波 处 理 的 图 ， 右 边 是 原 图 ， 锐 化 效果 不 错 。 


程序 10-37.py 演 示 了 拉 普 拉 斯 算 子 进行 二 维 卷 积 计 算 ， 对 图 像 进行 锐 化 处 理 ， 效 果 如 图 10-43 所 示 。 





# -*- coding: utf-8 -*- 

#10-37.ру 

import cv2 

import numpy as np 

from scipy import signal 

fn="test6.jpg" 

myimg-cv2.imread (fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
srcimg-np.array (img,np.double) 
myh-np.array([[0,1,0], [1, -4, 1] , [0, 12,0] ]) 
myj-signal.convolve2d (srcimg,myh,mode-"same") 
jgimg-img-myj 

cv2.imshow('src',img) 
cv2.imshow('dst',jgimg) 

Cv2.waitKey () 

Cv2.destroyAllWindows () 



































910-42 ” 卷 积 滤波 对 图 像 的 锐 化 处 理 





图 10-43” 拉 普 拉 斯 算 子 进行 二 维 卷 积 


观察 图 10-43， 左 边 是 原 图 ， 右 边 是 经 过 锐 化 后 的 图 像 ， 锐 化 效果 较 好 。 


Ул 


可 在 Python 中 调用 OpenCVv 的 Laplacian 函 数 进 行 边缘 检测 ， 调 用 格式 如 下 : 





cv2.Laplacian(src, ddepth[, dst[, ksize[, scale[, delta[, borderType]]]]]) — dst 








当 该 函数 的 ksize 参 数 大 于 1 时 ，Sobel 算 子 计算 公式 如 下 : 


O 
gila wa 


此 外 ， 当 ksize=1 时 ， 对 图 像 采 用 如 下 内 核 做 卷 积 : 


— 
| 

sls. 

— 


程序 10-38.py 演 示 了 拉 普 拉 斯 边缘 检测 ， 效 果 如 图 10-44 所 示 。 





# -*- coding: utf-8 -*- 
# 线 性 锐 化 滤波 ， 拉 普 拉 斯 图 像 变 换 
#code:myhaspl@myhaspl .com 


#10-38.ру 





import cv2 

fn-2"testó.jpg" 

myimg-cv2.imread (fn) 

img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
jgimg-cv2.Laplacian (img, -1) 


























cv2.imshow('src',img) 
cv2.imshow('dst',jgimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 











图 10-44” 拉 普 拉 斯 边缘 检测 


观察 图 10-44， 左 边 是 原 图 ， 右 边 是 经 过 滤波 后 的 图 像 ， 边 缘 被 成 功 提取 ， 将 右 图 进行 反 转 (黑色 变 白色 ,白色 变 黑 色 ， 用 255 减 去 图 像 和 矩阵 ) 后 ， 可 得 到 更 好 的 效果 。 


7J- 


sobe| 非 线性 滤波 采用 梯度 模 的 近似 方式 提取 边缘 ， 锐 化 图 像 。 


程序 10-39.py 演 示 了 sobel 非 线性 滤波 ， 效 果 如 图 10-45 所 示 。 


# -*- coding: utf-8 -*- 

# 非 线性 锐 化 滤波 ，sobel1 算 子 变 换 
#code:myhaspl@myhaspl .com 
#10-39.ру 

import cv2 

fn-"test6.jpg" 
myimg-cv2.imread (fn) 
img-cv2.cvtColor (myimg,cv2.COLOR BGR2GRAY) 
jgimg-cv2.Sobel (img,0,1,1) 
cv2.imshow('src',img) 
cv2.imshow('dst',jgimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 


























图 10-45 sobel 非 线性 滤波 


观察 图 10-45， 左 边 是 原 图 ， 右 边 是 经 过 滤波 后 的 图 像 ， 边 缘 被 成 功 提取 ， 将 右 图 进行 反 转 (黑色 变 白 色 ， 白色 变 黑 色 ， 用 255 减 去 图 像 和 矩阵 ) 后 ， 可 得 到 更 好 的 效果 。 


=< 


机 器 学 习 算 法 可 对 数字 图 像 进行 加 工 和 处 理 ， 以 便 进一步 进行 特征 提取 。 本 章 首先 介绍 了 数字 图 像 的 基础 知识 ， 数 字 图 像 用 二 维 矩 阵 表示 有 限 像素 点 ， 每 个 像素 点 对 应 于 矩 阵 对 应 位 置 的 元 素 ; 然后 以 
实例 说 明了 图 像 边缘 、 图 像 匹 配 、 图 像 分 类 算法 ; 最 后 进 解 了 噪声 生成 、 图 像 二 值 化、 插值 与 缩放 、 仿 射 、 透 视 投影 与 透视 变换 、 灰 度 变 换 与 图 像 增强 、 图 像 滤波 与 除 噪 等 算法 。 此 外 ， 在 讲解 这 些 算 法 的 
过 程 中 ， 注 重 实践 的 效果 ， 每 个 实例 均 用 Python 进行 实现 ， 以 验证 算法 的 有 效 性 。 


cH 
dk 
Ёш 


(1) 首先 应 用 欧 氏 距离 算法 计算 图 像 边缘 ， 并 对 多 个 不 同 的 图 像 进 和 


—= uA. 


可 头 志 


， 观 察 效果 ; 然后 将 欧 氏 距离 算法 改 为 像素 差分 算法 (计算 像素 数值 的 差分 绝对 值 ) 


进行 实验 ， 观 察 其 效果 。 


(2) 以 多 个 图 像 为 实验 对 象 ， 对 其 进行 加 噪声 点 、 变 形 、 放 大 、 缩 小 等 操作 ， 应 用 图 像 匹配 技术 进行 图 像 匹 配 算法 实验 ， 尝 试 在 图 像 匹配 算法 中 应 用 PCA 降 维 技术 。 


(3) 首先 任意 选取 


(4) 首先 任意 选取 


第 11 草 ”机 器 视 完 案例 


一 个 彩色 图 像 ， 分 别 加 上 高 斯 噪声 和 椒盐 噪声 ， 然 后 应 用 本 章 介绍 的 各 种 滤波 方法 ， 进 行 滤波 除 噪 ， 并 观察 效果 。 


一 个 彩色 图 像 ， 将 其 灰 度 化 ， 然 后 应 用 本 章 介绍 的 图 像 增强 方法 对 灰 度 图 像 进 行 处 理 ， 最 后 应 用 本 章 介绍 的 二 值 化 、 仿 射 、 透 视 化 变换 等 方法 对 彩色 图 像 进行 处 理 。 


计算 机 视觉 是 一 门 研究 如 何 使 机 器 “看 懂 ” 图 像 的 科学 ， 即 用 摄像 机 和 计算 机 代替 人 眼 对 目标 进行 识别 、 跟 踪 和 测量 等 。 首 先 ， 使 用 摄像 机 等 设备 采集 画面 ， 生 成 数字 图 像 ; 然后 ， 用 计算 机 对 图 像 进 
行 分 析 ， 相 当 于 人 的 大 脑 对 眼睛 采集 的 信息 进行 加 工 ， 得 到 所 需 的 信息 。 


计算 机 视觉 、 图 像 处 理 、 图 像 分 析 、 机 器 人 视觉 、 机 器 视觉 等 都 是 彼此 紧密 关联 的 学 科 ， 这 些 学 科 都 属于 人 工 智能 的 范畴 ， 它 们 的 研究 目的 都 是 使 机 器 人 (计算 机 ) 和 人 一 样 ， 能 看 到 图 像 ， 理 解 图 
像 ， 学 习 图 像 中 包含 的 知识 。 机 器 学 习 是 人 工 智能 的 核心 技术 ， 基 于 机 器 学 习 的 图 像 算法 应 用 于 图 像 处 理 与 分 析 领 域 ， 其 作用 相当 于 人 类 大 脑 加工 和 处 理 视 党 神经 反馈 的 图 像 。 


111 


人 脸 辩 识 


生物 特征 识别 技术 ， 是 指 通过 生物 体 (一 般 特 指 人 ) 本 身 的 生物 特征 来 区 分 生物 体 个 体 。 生 物 特 征 识 别 技术 所 研究 的 相关 特征 包括 脸 、 指 纹 、 手 掌 纹 、 虹 膜 、 视 网 膜 、 声 音 、 体 形 、 个 人 习惯 等 。 相 应 
的 识别 技术 有 人 脸 识别 、 指 纹 识 别 、 掌 纹 识 别 、 虹 膜 识 别 、 视 网 膜 识别 、 语 音 识别 、 体 形 识别 、 键 盘 敲 击 识别 、 签 字 识别 等 。 


人 脸 识别 属于 生物 特征 识别 技术 中 的 一 种 ， 指 利用 分 析 比 较 人 脸 视 党 特征 信息 进行 身份 鉴别 的 计算 机 技术 。 


11.1.1 


人 脸 定位 


在 一 张 图 像 或 一 段 视频 中 定位 人 脸 的 技术 目前 已 比较 成 熟 ， 可 调用 OpenCV 提 供 的 接口 来 完成 。 相 应 的 Python 代码 如 下 : 





def 











cv.Load(OPCV PAT 





Findface (image): 
# 人 脸 识别 ， 获 取 脸 在 图 像 中 的 坐标 


grayscale = cv.Create] 








cv.CvtColor(image, grayscale, cv.CV BGR2GRAY) 


cascade = 


result - [] 








return resuli 


for r in rect: 
result.append([(r[0] [0], r[0][1]), 


H-t"/data/haarcascades/haarcascade ` ER ` 
rect = cv.HaarDetectObjects (grayscale, cascade, cv.CreateMemStorage(), 1.015, 2,cv.CV НАА! 


[mage ((image.width, image.height), 8, 1 








Frontal 





Face al 





t tree.xml") 








R DO CANNY PRUNI 











NG, 


(10,10)) 


上 面 算 法 的 原理 是 : 首先 将 图 像 转换 为 灰 度 图 ， 然 后 加 载 OpenCV 提 供 的 面部 特征 库 ， 接 着 调用 HaarDetectObjects 找 到 人 脸 的 位 置 ， 最 后 将 定位 的 结果 赋值 给 result 数 据 并 返回 。 


下 面 以 如 图 11-1 所 示 的 《机 械 公 政 》 的 电影 海报 为 例 来 应 用 算法 。 


ү 


f!/usr/bin/env python 
#-*- coding: utf 





现 该 算法 的 完整 Python 代码 如 下 : 


=*= 


#code :myhaspl@qq.com 


#11- 


1.py 


# 人 脸 定 位 
import cv2 


impor! 





print 'loading h 


# 请 在 





def 











t су2.су as cv 














Е/с++/орепсу" 


Findface (image): 





# 人 脸 识别 ， 获 取 脸 在 图 像 中 的 坐标 





tp://www.hzcourse.com/resource/readl 








本 程序 运行 前 检查 opencv 的 目录 是 否 为 下 面 的 OPCV_PATH 值 
OPCV PATH-r"F:/sof 





grayscale = cv.Createlmage((image.width, image.height), 8, 1) 
cv.CvtColor(image, grayscale, cv.CV ВСК2СКАҮ) 
cascade = cv.Load(OPCV PATH-*"/data/haarcascades/haarcascade 


rect = cv.HaarDetec 





result = [] 











fn=' 


facesb.png' 





my img=cv. Load] 
# 获 取 脸 在 图 像 中 的 坐标 


faceresult=findface (my img) 





for r in rect: 





result.append([(r[0] [0], r[0] [1])， 
return result 





[mage (fn) 











myimg-cv2.imread 


(f 











for 


n) 
ii in xrange|(0,len(! 











су2. 
бу, 
су2. 
су2. 


程序 运行 效果 如 图 11-2 所 示 。 不 但 所 有 人 类 的 脸 被 定位 ， 而 且 机 器 人 的 脸 也 被 成 功 找到 。 程 序 的 OPCV_PATH 为 OpenCV 源 码 包 中 data 所 在 的 目录 ， 








cv2.rectangle (myimg, 











Faceresult)): 
faceresult 





[ii] [0], 


tObjects (grayscale, cascade, cv.CreateMemStorage(), 1.015, 2,cv.CV HAAI 














frontalface alt tree.xml") 





Book?path-/openresources/teach ebook/uncompressed/15753/0l 


R DO CANNY PRUNI 

















namedWindow ('img') 
imshow('img', myimg) 
waitKey () 





destroyAllWindows () 


faceresult [ii] [1], (0,0,250)) 











NG, 


EBPS/Text/...' 


(10,10)) 


10-10.py 前 请 自行 更 改 。 


WILL SMITH 
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图 11-1 《机 械 公 敌 》 的 电影 海报 
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图 11-2 人 脸 定 位 


11.12 ЛЯ 


在 讲述 本 节 内 容 之 前 ， 先 明确 一 下 本 节 讲 述 的 算法 需要 完成 的 任务 : 通过 某 人 的 一 张 照片 ， 在 他 与 别人 的 合影 中 找到 他 。 


1. 算 法 描述 


完成 该 任务 的 人 脸 辨识 算法 主要 过 程 是 : 


1) 读 取 两 张 图 像 ， 生 成 图 像 和 矩阵 。 


2) 以 两 个 图 像 矩阵 为 基础 ， 调 用 OpenCV 的 相关 函数 完成 人 脸 定 位 。 





3) 读 取 两 张 图 像 的 人 脸 区域 ， 生 成 人 脸 图 像 和 矩阵， 并 将 人 脸 和 矩阵 转换 为 灰 度 图 。 


4) 比较 分 析 人 脸 图 像 矩 阵 ， 找 到 最 相近 的 人 脸 。 


欧 氏 距离 算法 
在 进行 人 脸 识别 时 ， 可 使 用 标准 欧 氏 距离 算法 ， 该 算法 不 仅 简单 ， 而 且 实 用 。 下 面 以 一 张 Microsoft 公 司 员工 与 比尔 . 盖 茨 的 合影 和 在 比尔 : 盖 沪 办 公 室 中 他 与 基 人 的 合影 为 例 讲解 该 算法 。 


算法 基本 原理 是 : 将 标准 欧 氏 距离 算法 作为 比较 分 析 人 脸 图 像 矩 阵 方法 。 首 先 ， 将 两 个 人 脸 图 像 调整 为 指定 大 小 ; 接着， 用 所 包含 像素 的 三 元 色 数 值 组 成 特征 组 ， 然 后 将 特征 组 映射 为 高 维 空间 的 某 个 
кА (在 此 称 之 为 特征 点 ) ; 最 后 ， 计 算 两 个 人 脸 图 像 的 特征 点 映射 到 高 维 空间 后 的 距离 ， 以 欧 氏 距离 最 小 者 为 最 匹配 的 人 脸 。 具 体 步 又 如 下 。 


1) 调用 OpenCV 相 天 函数 定位 人 脸 。 代 码 如 下 : 


cv2.imshow('img', myimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 





2) 计算 欧 氏 距离 。 代 码 如 下 : 








def get distance (img, Ғіпаіто) : 

newsize- (img.shape[1],img.shape[0]) 
fimg-cv2.resize(findimg,newsize) 
my img-cv2.cvtColor (img,cv2.COLOR BGR2GRAY) 
my fimg-cv2.cvtColor(fimg,cv2.COLOR BGR2GRAY) 
return get EuclideanDistance (my img,my fimg) 






































3) 找到 最 匹配 的 人 脸 。 代 码 如 下 : 





myimg-cv2.imread(fn) 
myimgt-cv2.imread(fnt) 
HTH EAR ŽA 
isfacel=get distance (myimg [faceresu] 
isface2-get distance (myimg[faceresu] 


if isfacel<isface2: 

















[0] [0] [0] :faceresu] 
1] [0] [0] : faceresu] 


r 
` 
na 


r, :],myimgt [facet result[0][0] [0] :facet_result[0] [1] [0], facet_result[0 
] [1] [1], :],myimgt [facet result[0] [0] [0] : facet result[0] [1] [0], facet result[0] 



































[0] [1] [0] , £aceresult [0] [0] [1] :faceresult[0] [1] 
1] [1] [0] , f£aceresult[1] [0] [1] : f£Baceresult [1 



































ct ct 











ct ct 
















































































































































































cv2.rectangle (myimg, faceresult[0][0], faceresult[0][1], (255,0,255)) 

cv2.rectangle (myimgt, facet result[0][0], facet result[0] [1], (255,0,255)) 
else: 

cv2.rectangle (myimg, faceresult[1][0], faceresult[1][1], (255,0,255)) 

cv2.rectangle (myimgt, facet result[0][0], facet result[0] [1], (255,0,255)) 




















完整 的 代码 如 下 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#11-2.ру 

НЕЕ E KE 33 KILAJ ACH TRUST] 

import cv2 

import numpy as np 

import cv2.cv as cv 

print 'loading http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
# 请 在 本 程序 运行 前 检查 opencv 的 目录 是 否 为 下 面 的 OPCV_PATH 值 
OPCV PATH-r"F:/soft/ctt/opencv" 






























































def get EuclideanDistance (x,y): 
myx-np.array (x) 
myy-np.array (y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy) ) ) *np.var (myx-myy) 
def get distance (img, Ғіпаіто) : 
newsize-(img.shape[1],img.shape[0]) 





fimg-cv2.resize(findimg,newsize) 
my img-cv2.cvtColor (img,cv2.COLOR BGR2GRAY) 
my fimg-cv2.cvtColor(fimg,cv2.COLOR BGR2GRAY) 
return get EuclideanDistance (my img,my fimg) 
def findface (image): 
# 人 脸 识别 ， 获 取 脸 在 图 像 中 的 坐标 
grayscale = cv.Createlmage((image.width, image.height), 8, 1) 
cv.CvtColor(image, grayscale, cv.CV BGR2GRAY) 
cascade = cv.Load(OPCV PATH*"/data/haarcascades/haarcascade frontalface alt tree.xml") 
rect = cv.HaarDetectObjects (grayscale, cascade, cv.CreateMemStorage(), 1.1, 2,cv.CV HAAR DO CANNY PRUNING, (10,10)) 
result = [] 
for r in rect: 
result.append([(r[0][0], r[0][1]), (r[0][0]+r[0]1[2], r[0] [1] [0] [31) 1) 
return result 
fn-'billalll.png' 
fnt= 'billtest.png' 
my img-cv.LoadImage (fn) 
face test-cv.LoadImage (fnt) 
# 获 取 人 脸 在 图 像 中 的 坐标 
faceresult-findface (my img) 
facet result-findface(face test) 
myimg-cv2.imread (fn) Е 
myimgt-cv2.imread(fnt) 
#IT 精 英 比 尔 ` 盖 蒋 
isfacel-get distance (myimg[faceresul 
isface2-get distance (myimg[faceresul 


if isfacel«isface2: 













































































































































































[0] [0] [0] : £aceresul! 
1] [0] [0] : faceresu1! 
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[0] [1] [0] , £aceresult [0] [0] [1] :faceresult[0] [1] 
1] 11] 10], faceresult[1] [0] [1] : faceresult [1 
































ct ct 





,;i],myimgt[facet result[0][0] [0] : facet result[0][1][ 
]I1][1],:],myimgt[facet result[0][0][0]:facet result[0][1][ 
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,facet result[0] 
],facet result[0 











































































































cv2.rectangle (myimg, faceresult[0][0], faceresult[0][1], (255,0,255)) 

cv2.rectangle (myimgt, facet result[0][0], facet result[0] [1], (255,0,255)) 
else 

cv2.rectangle (myimg, faceresult[1][0], faceresult[1][1], (255,0,255)) 

cv2.rectangle (myimgt, facet result[0][0], facet result[0] [1], (255,0,255)) 
































cv2.namedWindow ('img') 
cv2.imshow('img', myimg) 
Cv2.namedWindow ('imgt') 
cv2.imshow('imgt', myimgt) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 














云 行 算法 程序 后 ， 成 功 地 在 员工 合影 中 找到 比尔 : 盖 尝 。 运 行 本 书 资源 包 中 的 上 述 代 码 ， 可 验证 人 脸 识 别 效果 。 


3. 改 进 的 欧 氏 距离 算法 


前 面 描述 的 图 像 特 征 码 提取 算法 仪 仪 是 基于 像素 点 的 三 元 色 数 值 的 ， 有 时 候 ， 图 像 少量 的 像素 点 差异 可 能 干扰 识别 结果 。 人 脸 是 一 个 整体 ， 可 能 因为 人 脸 的 某 个 部 位 (如 文身 、 饰 品 等 ) 、 人 脸 的 不 同 
动作 和 不 同 角度 (如 正面 人 脸 、 斜 侧面 人 脸 以 及 抬头 或 低头 等 ) 造成 少数 像素 点 之 间 的 差异 过 大 ， 使 欧式 距离 失真 (被 放大 或 缩小 ) 。 如 果 从 以 下 两 个 方面 改进 上 述 人 脸 辨识 算法 ， 可 以 使 其 识别 效果 更 
好 。 


` 将 人 脸 图 像 大 小 设置 为 适当 的 数值 (通常 来 说 比较 小 ) ， 这 样 更 能 突出 人 脸 的 特征 ， 而 略 去 很 多 干扰 项 。 此 外 ， 提 取 原 始 特征 组 后 ， 使 用 PCA 降 维 技术 对 原始 特征 组 进行 进一步 加 工 ， 生 成 最 终 的 特 
征 组 ， 从 而 更 好 地 表征 人 脸 。 


` 在 标准 欧 氏 距离 的 基础 上 乘 以 权重 。 有 两 种 计算 方式 : 第 一 ， 每 区 域 像素 设置 不 同 的 权重 ， 因 为 人 脸 的 不 同 区 域 表征 人 脸 的 能 力 不 同 ; 第 二 ， 设 置 整体 权重 ， 使 人 脸 图 像 矩 阵 的 差分 值 均匀 化 。 
本 节 使 用 第 二 种 方式 ， 加 工 后 的 欧 氏 距离 不 但 能 更 好 地 表征 人 脸 整 体 差 异 ， 而 且 不 会 因为 人 脸 中 某 些 部 分 过 大 或 过 小 的 差异 影响 整体 识别 效果 。 


在 讲解 上 述 算法 之 前 ， 先 讲解 一 下 统计 学 的 变异 系数 。 标 准 差 和 方差 均 可 反映 数据 离散 程度 ， 但 反映 的 是 离散 绝对 值 。 在 衡量 数据 分 布 离散 程度 时 ， 不 仅 要 考虑 变量 值 离散 程度 ， 还 要 考虑 变量 值 平 均 
水 平 。 变 异 系数 同时 考虑 了 这 两 个 因素 。 


变异 系数 ， 又 称 离散 系数 ， 是 概率 分 布 离散 程度 的 一 个 归 一 化 量度 。 它 定义 为 标准 差 o 与 平均 值 H 之 比 : 


注意 ， 变 异 系 数 只 在 平均 值 不 为 零 时 有 定义 ， 人 脸 差 分 矩阵 正好 满足 这 个 条 件 。 
变异 系数 可 以 消除 因为 平均 数 不 同 在 变异 程度 比较 中 产生 的 干扰 。 变 异 系 数 越 小 ， 数 据 离 平均 值 的 偏离 程度 越 小 ;， 反之， 变异 系数 越 大 ， 数 据 离 平均 值 的 偏离 程度 越 大 。 


这 里 首先 将 变异 系数 改进 ， 将 标准 差 用 方差 代替 ; 然后 将 改进 的 变异 系数 的 倒数 作为 计算 欧 氏 距离 的 调节 系数 (这样 做 的 效果 是 : 将 偏离 程度 较 大 的 数据 赋予 较 小 的 权重 ， 将 偏离 程度 较 小 的 数据 赋予 
较 大 的 权重 中 ) ; 最 后 将 标准 欧 氏 距离 乘 以 调节 权重 ， 从 而 实现 差异 平均 化 ， 让 改进 后 的 欧 氏 和 矩 阵 更 好 地 表征 人 脸 整 体 差异 。 通 过 对 多 个 样本 的 实验 来 看 ， 这 种 方式 的 效果 比较 理想 。 


下 面 以 找到 威 尔 .史密斯 为 例 来 讲解 改进 的 欧 氏 距离 算法 。 在 《机 械 公敌》 中 ， 威 尔 史 密斯 饰演 警 探 戴尔 史 普 纳 ， 布 丽 姬 穆 娜 饰演 苏 珊 卡尔 文博 士 。 以 威 尔 . 史 密斯 出 演 的 《我 是 传奇 》 的 电影 海报 (如 
图 11-3 所 示 ) 中 的 图 像 为 蓝本 ， 在 他 与 布 丽 姬 穆 娜 合影 的 《机 械 公 铸 》 海 报 (如 图 11-4 和 图 11-2 所 示 ) 中 找到 他 。 
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图 11-3 《我 是 传奇 》 海 报 


经 过 实验 ， 发 现 标准 的 欧 氏 距 算 法 无 法 完成 这 个 任务 ， 





图 11-4 《机 械 公敌 》 人 海报 


需要 使 用 刚刚 描述 的 改进 后 的 欧 氏 距离 算法 。 


1) 在 PCA 降 维 后 ， 计 算 基于 整体 权重 的 欧 氏 距离 。 代 码 如 下 : 





def get distance (img, і 


newsize- (21,21) 





fimg-cv2.resize(! 





Findimg): 


Findimg,newsize) 


img-cv2.resize(img,newsize) 


my img-cv2.cvtCol 





Lor (img, cv2.COLOR BGR2GRAY) 








my fimg-cv2.cvtColor(fimg,cv2.COLOR BGR2GRAY) 
pcaimg = mlpy.PCA() 








pcaimg.learn(my img) 


pca img = pcaimg. 
рса img-pcaimg.transí 














transform(my img, k-1) 








pcafimg = mlpy.PCA() 








pcafimg.learn (my і 








pca fimg = pcaimg. 


Form inv(pca img) 


Fimg) 








transform(my fimg, k=1) 











pca fimg- pca 
return get | 





Fimg. 








transform inv(pca fimg) 














EuclideanDistance (рса img,pca fimg) 





2) 根据 欧 氏 距离 决定 哪个 人 脸 更 匹配 。 代 码 如 下 : 


my img-cv.LoadImage (f 














myimg-cv2.imread(fn2) 


# 获 取 脸 在 图 像 中 的 坐标 








faceresult- 








n2) 


Findface (my img) 





# 找 到 威 尔 :史密斯 














[0] [0] [0] :faceresuli 
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isfacel-get distance (myimg[faceresul! 
isface2-get distance (myimg [faceresu] 


















































ct ct 











ct ct 




















[0] [1] [O] , £aceresult [0] [0] [1] : £aceresult [0] [1] 
7 1 1 


:],myimgt[facet result[0] [0] [0] :facet result[0][1l][ facet result 
[1] [1] [0] , f£aceresult [1] [0] [1] : faceresult[ 0 


] [1] 1], :],myimgt [facet result[ ] [0] [0] :facet result[0][1][ баве resul 
































1] [0] [0] : faceresul! 











if isfacel«isface?2: 
cv2.rectangle (myimg, faceresult[0]I| 
cv2.rectangle (myimgt, facet result[ 
else: 
cv2.rectangle (myimg, faceresult[1] [0] 1[11, (255,0,255)) 

cv2.rectangle (myimgt, facet result[0][0], facet result[0][1], (255,0,255)) 














faceresult [0] [1], (255,0,255)) 
1101, facet result[0] [1], (255,0,255)) 
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完整 的 代码 如 下 : 


#!/usr/bin/env python 

f-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#11-3.ру 

#Pcb+ 改 进 变异 系数 人 脸 识别 

import cv2 

import numpy as np 

import cv2.cv as cv 

import mlpy 

print 'loading Mhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 
# 请 在 本 程序 运行 前 检查 opencv 的 目录 是 否 为 下 面 的 OPCV_PATH 值 

OPCV PATH=r"F:/soft/c++/opencv" 

def get EuclideanDistance (x,y): 

yx-np.array (x) 
yy-np.array(y) 
e 

e 


















































turn np.sqrt (np.sum( (myx-myy) * (myx-myy))) / (np.var (myx-myy) /abs (np.mean (myx-myy) ) ) 
t distance (img, findimg): 
ewsize- (21,21) 
fimg-cv2.resize(findimg,newsize) 
img-cv2.resize(img,newsize) 
my img-cv2.cvtColor (img,cv2.COLOR BGR2GRAY) 
my fimg-cv2.cvtColor(fimg,cv2.COLOR BGR2GRAY) 
pcaimg = mlpy.PCA() 
pcaimg.learn (my img) 
pca img = pcaimg.transform(my img, k-1) 
pca img-pcaimg.transform inv(pca img) 
pcafimg = mlpy.PCA() 
pcafimg.learn (my fimg) 
рса fimg = pcaimg.transform(my fimg, k=1) 
pca fimg- pcafimg.transform inv(pca fimg) 
return get EuclideanDistance(pca img,pca fimg) 
def findface (image): 
# 人 脸 识 别 ， 获 取 脸 在 图 像 中 的 坐标 
grayscale = cv.CreateImaoe ( (image.width, image.height), 8, 1) 
cv.CvtColor(image, grayscale, cv.CV BGR2GRAY) 
cascade = cv.Load(OPCV PATH*"/data/haarcascades/haarcascade frontalface alt tree.xml") 
rect = cv.HaarDetectObjects (grayscale, cascade, cv.CreateMemStorage(), 1.1, 2,cv.CV HAAR DO CANNY PRUNING, (10,10)) 
result - [] 
for r in rect: 
result.append([(r[0][O], r[0][1]), (rI0] [0] *r[0] [2], rI0] [1] *z[0] [3]) ]) 
return result 
fni-'jjgdall.png' 
tn2-'facesb.png' 
fnt-'jjgdtest.png' 
face test-cv.LoadImage (fnt) 
# 获 取 人 脸 在 图 像 中 的 坐标 
facet result=findface (face test) 
myimgt-cv2.imread (fnt) Е 
my img-cv.LoadImage (Ёп1) 
myimg-cv2.imread (fn1) 
# 获 取 人 脸 在 图 像 中 的 坐标 
faceresult=findface (my img) 
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isfacel-get distance (myimg[faceresul 
isface2-get distance (myimg [faceresu] 


[01 [0] [0] : £aceresul! 
1] [0] [0] : faceresul! 


=з 
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r, :],myimgt [facet result[0][0] [0] :facet result[0][1][0],facet result! 
] [1] [1], :],myimgt [facet result[0][0] [0] : facet result[0] [1] [0], facet result 
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Ct ct 


[0] [1] [0] , faceresult[0] [0] [1] : faceresult [0] [1] 
[1] [1] [0], £aceresult[1] [0] [1] : faceresult [1 





















































if isfacel«isface2: 

cv2.rectangle (myimg, faceresult[0]I| 

cv2.rectangle (myimgt, facet result[ 

else: 
cv2.rectangle (myimg, Ғасегеѕи1+ [1] [0] 111], (255,0,255)) 
cv2.rectangle (myimgt, facet result[0][0], facet result[0][1], (255,0,255)) 

cv2 .namedWindow ('imgl"') iB B 

cv2.imshow('imgl', myimg) 

my img-cv.LoadImage (fn2) 

myimg-cv2.imread (fn2) 

# 获 取 人 脸 在 图 像 中 的 坐标 

faceresult-findface (my img) 

# 找 到 威 尔 :史密斯 

isfacel-get distance (myimg[faceresul! 

isface2-get distance (myimg[faceresuli 


if isfacel«isface2: 
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faceresult [0] [1], (255,0,255)) 
] [0], facet result[0] [1], (255,0,255)) 
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[01 [0] [0] : £aceresul! 
1] [0] [0] : faceresul! 


,;i],myimgt[facet result[0][0] [0] : facet result[0] [1] [0], facet result! 
] [1] [1], :],myimgt [facet result[0][0] [0] : facet result[0] [1] [0], facet result 
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[0] [1] [0] , £aceresult [0] [0] [1] : faceresult [0] [1] 
1] 11] 10], faceresult[1] [0] [1] : faceresult [1 
































Ct ct 








Ct а 





































































































































































































cv2.rectangle (myimg, faceresult[0][0], faceresult[0][1], (255,0,255)) 

cv2.rectangle (myimgt, facet result[0][0], facet result[0] [1], (255,0,255)) 
else 

cv2.rectangle (myimg, faceresult[1][0], faceresult[1][1], (255,0,255)) 

cv2.rectangle (myimgt, facet result[0][0], facet result[0][1], (255,0,255)) 





Cv2.namedWindow ('img2') 
cv2.imshow('img2', myimg) 
cCv2.namedWindow ('imgt') 
cv2.imshow('imgt', myimgt) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 








运行 上 述 程序 后 ， 效 果 良 好 ， 在 图 11-5 中 ， 以 左 图 中 的 史密斯 的 脸 为 依据 ， 成 功 地 在 右边 两 个 图 像 中 找到 史密斯 ( 方 框 中 标示 了 人 脸 ) 。 





imgt = 


ТЕШИ. 


i 
i 

Ж PÍ 
ig s 
Ai 
Ж 
= 

- | 

я | 
TE 


L3 ks 


КЕК Е Е Au A RI R RE NEUEN ME 


FACIE РАЈЕ Tae + ЫЧ Ра 


HAHAE ЕЕ се. m, 





图 11-5 人 脸 匹 配 


手写 数字 识别 就 是 指 用 计算 机 读 取 含 有 手写 数字 的 图 像 ， 然 后 将 图 像 转 换 为 用 计算 机 文字 表示 的 对 应 数字 。SVM 在 文本 分 类 、 手 写 文字 识别 、 图 像 分 类 、 人 生物 序列 分 析 等 实际 应 用 中 表现 出 了 非常 好 的 
性 能 。 下 面 应 用 SVM 算法 对 1~9 的 手写 数字 图 像 进行 识别 。 


1) 为 每 个 数字 各 准备 4 个 样本 图 像 ， 如 图 11-6 所 示 。 


lu n su n 2 ai ou m s 3 
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图 11-6 ”数字 样本 图 像 


2) 将 图 像 大 小 调整 为 8x 8 的 尺寸 ， 读 取样 本 图 像 。 

虽然 较 大 的 图 像 比较 小 的 图 像 尺 寸 更 清晰 ， 但 并 不 意味 着 它 能 更 好 地 表现 图 像 的 主要 特征 。 不 过 ， 由 于 手写 字体 不 规范 ， 因 此 较 大 的 尺寸 会 更 清楚 地 表征 字体 的 不 规范 细节 。 当 图 像 尺 寸 调 整 得 更 小 
时 ， 图 像 矩 阵 规模 变 小 ， 能 表现 图 像 细节 的 能 力 减弱 ， 大 部 分 字体 的 不 规 学 细节 会 消失 ， 但 这 样 一 来 ， 数 字 的 主要 特征 就 更 加 突出 了 ， 可 尽 可 能 消除 手写 字体 不 规范 带 来 的 影响 。 比 如 ， 如 图 11-7 所 示 的 数 
字 3， 从 左边 起 第 一 张 是 40x40 的 尺寸 ， 第 二 张 是 20x20 的 尺寸 ， 而 第 三 张 则 是 8x 8 的 尺寸 。 我 们 在 用 肉眼 观察 时 ， 可 以 看 到 ， 随 着 尺寸 越 来 越 小 ， 图 像 越 来 越 模糊 ， 不 规范 的 细节 也 慢 慢 消 失 。 当 计算 机 使 


用 8x 8 的 尺寸 来 分 析 数 字 3 的 图 像 时 ， 提 取 的 特征 就 能 更 好 地 表达 图 像 。 





图 11-7 ”不同 尺寸 的 数字 3 图 像 


在 8x8 (实际 是 gx8x3， 因 为 调用 OpenCV 库 读 取 图 像 后 ， 会 多 出 一 维 空间 ， 多 出 的 这 维 空间 分 别 放置 了 红 、 绿 、 蓝 三 元 色 数 值 ) 的 图 像 和 矩阵 中 ， 当 色彩 为 黑色 (数字 字体 的 颜色 ) 时 ， 表 示 该 像素 的 
特征 码 为 1， 否 则 为 0， 形 成 的 像素 特征 码 组 成 了 样本 图 像 特 征 组 。 


现在 将 每 个 数字 类 别 的 样本 图 像 特 征 组 作为 输入 ， 样 本 对 应 的 数字 值 作为 输出 ， 用 SVM 进行 训练 。 
3) 读 取 未 知 样本 图 像 ， 将 未 知 图 像 调整 为 8x 8 的 尺寸 ， 提 取 图 像 特征 码 ， 生 成 图 像 特征 组 。 
Д) 将 未 知 样本 图 像 特征 组 送 入 SVM 仿真 测 坛 ， 仿 真 输出 值 为 根据 图 像 识别 出 的 数字 。 


11.2.2 ”算法 的 Python 实现 


现在 根据 上 述 步骤 一 步 步 来 实现 。 首 先 ， 提 取 图 像 特 征 ， 代 码 如 下 : 














def getnumc (fn): 
111 返 回 数字 特征 ' тт 
fnimg = су2.ітгеаа (fn) 
img-cv2.resize(fnimg, (8,8)) 
alltz-[] 
for now h in xrange(0,8): 
xtz-[] 
for now w in xrange(0,8): 
= img[now h,now wy 0] 
= img[now h,now w,1] 
= img[now h,now w,2] 
tz-255-b 
tz-255-g 
tz-255-r 
f btz»0 or gtz»0 or rtz»0: 
nowtz-1 
else: 
пом 2=0 
xtz.append (nowtz) 
alltz-t-xtz 
return alltz 














т-а сна с 











然后 训练 SVM 并 仿真 输出 。 代 码 如 下 : 


x-np.array (x) 

y-np.array (у) 

svm = mlpy.LibSvm(svm type-'c svc', kernel type-'poly',gamma-10) 
svm.learn(x, y) 

print svm.pred (x) 


完整 的 Python 代码 如 下 : 





f!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 





#11-4.ру 

import numpy as np 
import mlpy 

import cv2 




















print 'loading http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 

def getnumc (fn): 

111 返 回 数字 特征 ' тт 

fnimg = су2.ітгеаа (fn) 

img-cv2.resize(fnimg, (8,8)) 

alltz-[] 

for now h in xrange(0,8): 
xtz-[] 

for now w in xrange(0,8): 

= img[now h,now w,0] 

= img[now h,now w,1] 

= img[now h,now w,2] 

tz-255-b 


























tz-255-r 
f btz»0 or gtz»0 or rtz»0: 
nowtz=1 

else: 

nowtz=0 
xtz.append (nowtz) 
alltz+=xtz 
return alltz 

# 读 取样 本 数字 
x-[] 
y-[] 
for numi in xrange(1,10): 
for numij in xrange (1,5): 
fn-'nums/'-*str(numi)-t'-'-str (numij)-*'.png' 
x.append (getnumc (fn) ) 
y.append (numi) 


HKO сна Uv 


























x-np.array (x) 

y-np.array (у) 

svm = mlpy.LibSvm(svm type-'c svc', kernel type-'poly',gamma-10) 
svm.learn(x, y) 

print svm.pred (x) 

for iii in xrange (1,10): 











ces 


n= 'nums/test/'+str(iil)+'-test.png' 





ces 





Lx 








Les 


print 


Lx 





= 
.append (getnumc (testfn)) 
svm. pred (testx) 











最 后 ， 进 行 仿真 测试 。 


通过 对 如 图 11-8 所 示 的 未 知 样本 的 仿真 测试 得 知 ， 运 行 效果 不 错 。 


| Z 


Ё 


; 


Y 


à 


l-test.png 2-test.png J-test.pnq 4-test.pnq 5-test.png -test png 7-test.pnqg &-test.png 
9-test.png 
图 11-8 未知数 字样 本 
运行 效果 如 下 : 

















loading http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0EBPS/Text/ . . .训练 样本 测试 
] 









































E- Le do da da 2.25 2e 2„ 2, 3.2 3. — 326-3. 4 d... Бы Da 
5. 5. 6. 6. 6. 6. 7. 7. 7. 7. 8. 8. 8. 8. 9. 9. 9. 9.] 未 知 图 像 测试 

nums/test/l-test.png: [ 1.] 

nums/test/2-test.png: [ 2 

nums/test/3-test.png: [ 3 

nums/test/4-test.png: [ 4 

nums/test/5-test.png: [ 5 

nums/test/6-test.png: [ 6 

nums/test/7-test.png: [ 7 

nums/test/8-test.png: [ 8 

nums/test/9-test.png: [ 9 
































11.3 ”运动 侦 测 
运动 侦 测 ， 英 文 翻译 为 “Motion Detection Technology" ， 一 般 也 叫 移 动 检 测 ， 是 指 通过 摄像 头 按 照 不 同 的 帧 率 采 集 得 到 的 图 像 ， 电 脑 按 照 一 定 的 算法 对 这 些 图 像 进行 计算 和 比较 ， 当 画面 有 变化 
时 ， 指 示 系 统 能 自动 做 出 相应 的 处 理 。 比 如 : 有 人 走 过 ， 镜 头 被 移动 ， 电 脑 计 算 比 较 得 出 的 移动 数值 ， 检 测 是 否 会 超过 阅 值 ， 如 果 超 过 阅 值 ， 则 进行 下 一 步 处 理 (发 出 警报 等 ) 。 


移动 侦 测 技术 是 运动 检测 录像 技术 的 基础 ， 最 早 用 于 于 无 人 值守 监控 录像 和 自动 报警 ， 现 在 已 经 被 广泛 应 用 于 网 络 摄像 机 、 汽 车 监控 锁 、 数 字 宝 护 神 、 婴 儿 监 视 器 、 自 动 取 样 仪 、 自 识别 门 茶 等 众多 安 
防 仪器 和 设施 上 。 
11.3.1 ”视频 采集 


程序 11-5.py 演 示 了 视频 采集 ， 程 序 每 隔 15 窜 秒 检测 一 次 是 否 采集 图 像 。 程 序 的 具体 实现 方式 如 下 : 


首先 设置 捕获 设备 ， 然 后 建立 循环 ， 每 15 毫 秒 更 新 一 次 画面 显示 ， 并 检测 是 否 退 出 ， 或 采集 图 像 ， 按 空格 键 则 退出 ， 按 c 键 则 捕获 当前 视频 的 图 像 。 


== 





# -*- coding: utf-8 
#coding:myhaspl@myhasp1.com 
#11-5.ру 
import cv2 
# 设 置 需要 采集 视频 的 设备 ID 为 0, 从 第 0 个 摄像 头 采 集 
mycap-cv2.VideoCapture (0) 
іа=0 
while True: 
ret,imemycap.read() 
cv2.imshow ('myvideo',im) 
# 每 15 毫 秒 采集 1 次 
key-cv2.waitKey (15) 
# 空 格 键 退 出 
if key==32: 
break 
#c 键 采集 
elif key--ord('c'): 
cv2.imwrite('vd '«*str(id)-*'.png',im) 
id+=1 Е 














程序 11-5.py 运 行 后 ， 将 出 现 从 摄像 头 实时 采集 的 图 像 ， 如 图 11-9 所 示 。 











图 11-9 摄像头 实时 采集 的 图 像 1 


每 次 按键 后 ， 采 集 连 接 图 像 ， 如 图 11-10 至 图 11-13 所 示 的 图 像 序 列 。 





图 11-10 图像 序列 2 





811-11 ”图像 序列 3 





图 11-12 ”图像 序列 4 





图 11-13 ”图 像 序列 5 


可 按 帧 生成 视频 图 像 序列 数组 ， 程 序 11-6.py 演 示 了 对 视频 图 像 的 抓 图 保存 。 





# -*- coding: utf-8 -*- 
#coding:myhaspl@myhasp1.com 
# 采 集 视频 生成 视频 帧 数组 
#11-6.ру 
import cv2 
# 设 置 需 要 采集 视频 的 设备 ID 为 0, 从 第 0 个 摄像 头 采 集 
mycap-cv2.VideoCapture (0) 
myframes-[] 
while True: 
ret,imemycap.read() 
cv2.imshow ('myvideo',im) 
# 采 集 
myframes .append (im) 
# 每 15 毫 秒 采集 1 次 
key-cv2.waitKey (15) 
# 空 格 键 退出 
if key==32: 
break 
# 生 成 视频 帧 数组 


myframes=np.array (myframes) 











3 读 取 视频 文件 
除了 从 摄像 头 采集 数据 外 ， 还 可 从 视频 文件 获取 视频 ， 用 如 下 格式 的 Python 代码 来 实现 : 


mycapture-cv2.VideoCapture ("文件 名 ") 


11.32 ”差分 算法 


差分 检测 根据 当前 图 像 与 参考 图 像 的 差别 分 析 来 判断 序列 图 像 中 是 否 有 运动 的 物体 ， 在 环境 亮度 变化 不 大 的 情况 下 ， 如 果 对 应 像素 灰 度 值 的 差异 小 于 某 个 阐 值 ， 则 认为 画面 静止 无 运动 变化 ， 如 果 图 像 
区 域 某 处 的 灰 度 变化 大 于 某 个 阅 值 ， 则 认为 这 是 由 于 图 像 中 运动 的 物体 所 引起 的 ， 然 后 求 出 运动 目标 在 图 像 中 的 位 置 。 


根据 差分 的 参考 图 像 不 同 ， 可 以 分 为 基于 相 邻 帧 差 的 算法 和 基于 背景 图 像 与 当前 帧 差 的 算法 : 基于 相 邻 帧 差 的 算法 是 将 前 后 两 帧 图 像 对 应 像素 点 的 灰 度 值 相 减 ， 基 于 背景 图 像 与 当前 帧 差 的 算法 则 是 将 
当前 帧 和 背景 帧 对 应 像素 的 灰 度 值 相 减 。 


下 面 将 以 实例 来 说 明 该 算法 。 图 11-14~ 图 11-19 是 某 视频 的 6 个 截图 ， 根 据 这 6 个 运动 图 像 序列 ， 判 断 画 面 在 何 时 出 现 了 运动 的 物体 ， 输 出 警告 信息 ， 并 生成 运动 效果 组 合 图 。 





图 11-14 视频 的 截图 1 





图 11-15 ”视频 的 截图 2 





图 11-16 ”视频 的 截图 3 





图 11-17 视频 的 截图 4 





图 11-18 ”视频 的 截图 5 





811-19 ”视频 的 截图 6 


2. 基 于 相 邻 帧 差 的 算法 
基于 相 邻 帧 差 的 算法 过 程 如 下 : 
1) 将 当前 帧 的 灰 度 图 像 与 前 一 帧 的 灰 度 图 像 相 减 ， 得 到 差分 值 ， 当 差分 值 大 于 某 个 赋值 时 ， 将 差分 和 矩阵 的 相应 位 置 设置 为 1， 否 则 设置 为 0， 差 分 矩阵 的 计算 公式 如 下 : 


(| fi fa D- fk THRESHOLD 
E^ EL 
其 中 ，fk (1, J) zEmSBKTEIGOBEE (1, j) 处 的 灰 度 值 ，D (i, J) 表示 差分 和 矩阵 (i, j) 处 的 值 。 
2) 如 果 差 分 矩阵 不 全 为 0， 则 表示 检测 到 运动 。 如 果 有 必要 ， 可 按 一 定 的 运动 检测 次 数 对 运动 画面 进行 分 组 ， 并 融合 晋 加 形成 多 组 运动 轨 人 迹 图 。 


3) 取 下 一 帧 图 像 ， 转 到 (1) ， 直 到 所 有 帧 图 像 全 部 处 理 完 毕 后 退出 。 


用 Python 代码 实现 该 算法 ， 如 程序 11-7.py 所 示 。 





4 -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl .com 
# 差 分 运动 检测 ， 相 邻 帧 差 检测 和 画面 中 是 否 有 运动 的 物体 
#11-7 .py 
import cv2 
import numpy as np 
# 读 取 运 动 序列 图 像 
fn-[] 
for i in xrange (6): 
fn.append (str (1+1) +".рпд") 
img-[] 
colorimg-[] 
myimg-[] 
for i in xrange (6): 
tmpimg- (cv2.imread (fn[i])) 
colorimg.append (tmpimg) 
myimg-cv2.cvtColor (tmpimg,cv2.COLOR BGR2GRAY) 
img.append (myimg) 
# 差 分 计算 
myimgl-colorimg[0].copy() 
myimg2-myimgl.copy () 
w-myimgl.shape[1] 
h-myimgl.shape[0] 
moveimgl-np.zeros ((h,w),np.uint8 ) 
moveimg2-np.zeros((h,w,3),np.uint8 ) 
for ii in xrange(5): 
print u" 开 始 分 析 第 "+str (11+2) +0" 151 5) E http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..." 
myd-img[ii-1]-img[ii] i 
# X, # BE 
THRESHOLD-int (np.median (abs (myd) ) ) Jx P 4: 2 4⁄8 2) BE 
mymove-np.ones([h,w],np.uint8) 
for i in xranoe (h): 





























for j in xrange(w): 
f abs (myd[i,j]) XTHRESHOLD or myd[i,j]--0: 
mymove [1,3]=0 
# 如 果 有 物体 运动 则 输出 报警 ， 并 生成 运动 效果 司 加 图 
if np.sum(mymove)>0 : 
print u" 第 "+str (ii+2)+u" 个 运动 图 像 发 生 了 交 化 1" 
moveimgl-img[ii-*1]* (1-mymove)*0.16+img[ii]* (1-mymove)*0.16+moveimg1 
moveimg2=colorimg[ii+1]*0.16+colorimg[ii]*0.16+moveimg2 
moveimgl=np.array (moveimgl,np.uint8) 
moveimg2=np.array (moveimg2,np.uint8) 
#22 75214 90) уй, (l 
# 计 算 运 动 部 分 
moveimgl=moveimgl-img[0] 
# 灰 度 图 二 值 化 以 更 好 地 显示 运动 的 效果 。 
retval, showimgl-cv2.threshold (moveimg1,140,255,cv2.THRESH BINARY) 
showimgl-showimg1 
showimg2-moveimg2 
Cv2.imshow ("movel", showimgl) 
Cv2.imshow ("move2", showimg2) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 








E 



























































运行 程序 11-7.py， 程 序 检测 到 第 2、3、4、6 帧 时 ， 图 像 发 生 了 变化 ， 运 行 结果 如 下 : 
开始 分 析 第 2 个 运动 图 像 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompresseq/15753/OEBPSVText/. . .第 2 个 运动 图 像 发 生 了 变化 ! 开 始 分 析 第 3 个 运动 图 像 http ://www， 


程序 11-7.py 绘 制 了 使 用 相 邻 帧 差分 法 检测 的 运动 效果 ， 如 图 11-20 所 示 。 


观察 图 11-20， 左 边 的 图 像 为 运动 图 像 的 融合 ， 右 边 的 图 像 为 程序 提取 运动 部 分 的 灰 度 图 ， 可 较 直 观 地 看 出 手 拿 着 笔 摆动 时 的 运动 路 径 和 运动 速度 。 





图 11-20 运动 效果 


3. 基 于 背景 图 像 与 当前 帧 差 的 算法 
该 算法 的 具体 过 程 如 下 : 
1) 将 当前 帧 的 灰 度 图 像 与 背景 灰 度 图 像 相 减 ， 得 到 差分 值 ， 当 差分 值 大 于 某 个 阔 值 时 ， 将 差分 矩阵 的 相应 位 置 设置 为 1， 否 则 设置 为 0， 差 分 和 矩阵 计算 公式 如 下 : 
l fe G p-/.Gp>THRESHOLD # kE |2, п] 
0 其 他 


上 式 中 ，fk (i, J) 表示 第 K 个 图 像 矩 阵 (i, j) 处 的 灰 度 值 ，D (i, j) 表示 差分 矩阵 (i, j) 处 的 值 。 


DULIP- 


2) 如 果 差 分 矩阵 不 全 为 0， 则 表示 检测 到 运动 。 如 果 有 必要 ， 可 按 一 定 的 运动 检测 次 数 对 运动 画面 进行 分 组 ， 并 融合 填 加 形成 多 组 运动 轨迹 图 。 
3) 取 下 一 帧 图 像 ， 转 到 (1) ， 直 到 n 个 帧 的 图 像 全 部 处 理 完毕 后 退出 。 


用 Python 代码 实现 该 算法 ， 如 程序 11-8.py 所 示 。 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl .com 
# 差 分 运动 检测 ， 基 于 背景 图 像 与 当前 帧 差 来 检测 画面 中 是 否 有 运动 的 物体 
#11-8.ру 
import cv2 
import numpy as np 
# 读 取 运 动 序列 图 像 
fn-[] 
for i in xrange (6): 
fn.append ("mv"+str (i*1)-*".png") 
img-[] 
colorimg-[] 
myimg-[] 
for i in xrange (6): 
tmpimg- (cv2.imread (fn[i])) 
colorimg.append (tmpimg) 
myimg-cv2.cvtColor (tmpimg,cv2.COLOR BGR2GRAY) 
img.append (myimg) 
# 差 分 计算 
myimg=colorimg[0] .copy () 
w-myimg.shape[1] 
h-myimg.shape[0] 
moveimg-np.zeros((h,w,3),np.uint8 ) 
for ii in xrange(5): 
print u" 开 始 分 析 第 "+str (11+2) +0" 4-8 5) E S http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..." 
myd-img[ii-1]-img[0] B 
ВЕЖ THEE 
THRESHOLD-int (np.median (abs (myd) ) )# 取 中 位 数 做 为 阅 值 
mymove-np.ones([h,w],np.uint8) 
for i in xranoe (h): 



































for j in xrange(w): 
if abs (myd[i,j])«THRESHOLD or myd[i,j]--0: 
mymove [i, j ]= 
# 如 果 有 物体 运动 则 输出 报警 
if np.sum(mymove)>0 : 
print u"£"-«str(ii42)4u"AMi& b EM AE T xui 
moveimg-colorimg[ii-*1]*0.16-*colorimg[ii]*0.16-4moveimg 
moveimg-np.array (moveimg,np.uint8) 
# 显 示 移 动 部 分 
showimg-moveimg 
Cv2.imshow ("move", showimg) 
Cv2.waitKey () 
Cv2.destroyAllWindows () 




















程序 11-8.py 绘 制 了 检测 到 的 运动 效果 (如 图 11-21 所 示 ) ， 并 输出 结果 如 下 : 


开始 分 析 第 2 个 运动 图 像 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. .第 2 个 运动 图 像 发 生 了 变化 ! 开 始 分 析 第 3 个 运动 图 像 http :/V/www， 


从 图 11-21 中 可 较 直 观 地 看 出 手 拿 着 笔 摆动 时 的 运动 路 径 和 运动 速度 。 





911-21 检测 到 的 运动 


11.3.3 УБА 


1. 光 流 法 概述 


光 流 (Optical Flow/Optic Flow) 是 关于 视 域 中 的 物体 运动 检测 的 概念 。 用 来 描述 相对 于 观察 者 的 运动 所 造成 的 观测 目标 、 表 面 或 边缘 的 运动 。 光 流 法 在 模式 识别 、 计 算 机 视 党 及 其 他 图 像 处 理 中 非常 
有 用 ， 可 用 于 运动 检测 、 物 件 切 割 、 碰 撞 时 间 与 物体 膨胀 的 计算 、 运 动 补偿 编码 ， 或 者 通过 物体 的 表面 与 边缘 进行 立体 的 测量 等 。 


光 流 法 的 基本 原理 为 : 光 流 是 空间 运动 物体 在 观测 成 像 面 上 的 像素 运动 的 瞬时 速度 。 光 流 的 研究 是 利用 图 像 序列 中 的 像素 强度 数据 的 时 域 变 化 和 相关 性 来 确定 各 自 像 素 位 置 的 “运动 ”， 即 研究 图 像 灰 
度 在 时 间 上 的 变化 与 景象 中 的 物体 结构 及 其 运动 的 关系。 一 般 情况 下 ， 光 流 是 由 相机 运动 、 场 景 中 的 目标 运动 或 两 者 的 共同 运动 产生 的 。 光 流 的 计算 方法 大 致 可 分 为 三 类 : 基于 匹配 的 、 频 域 的 和 梯度 的 方 
Ж, 


光 流 法 的 前 提 假设 如 下 : 
` 相 邻 帧 之 间 的 亮度 恒定 。 
` 相 邻 视频 帧 的 取 帧 时 间 是 连续 的 ， 或 者 说 ， 相 邻 帧 之 间 物 体 的 运动 比较 “微小 。 
` 保持 空间 的 一 致 性 ， 即 同一 子 图 像 的 像素 点 具有 相同 的 运动 。 
2.Python 实 现 


程序 11-9.py 从 摄像 头 采 集 图 像 ， 然 后 对 每 个 连续 的 图 像 进行 光 流 估计 ， 并 绘制 流 矢 量 ， 效 果 如 图 11-22 所 示 。 





# -*- coding: utf-8 -*- 
#coding:myhaspl@myhasp1.com 
# 光 流 法 
#11-9.ру 
import cv2 
import numpy as np 
def flowdraw (im, flow,step-14): 
# 绘 制 光 流 
h,w-im.shape[:2] 
y,x-np.mgrid[step/2:h:step, step/2:w:step].reshape (2,-1) 
fx,fy-flow[y,x].T 
# 线 终点 
lines-np.vstack(([x,y,x*fx,yt*fy]).T.reshape (-1,2,2) 
lines-np.int32 (lines) 
# 创 建 图 像 
myvis-cv2.cvtColor (іт, cv2 .COLOR GRAY2BGR) 
for (xl,y1), (x2,y2) in lines: 
cv2.line (myvis, (х1,у1), (х2,у2), (0,255,0) , 1) 
Cv2.circle (myvis, (x1,y1),1, (0,255,0) , -1) 
return myvis 
# 设 置 需要 采集 视频 的 设备 ID 为 0, 从 第 0 个 摄像 头 采 集 
mycap-cv2.VideoCapture (0) 
# 前 一 个 图 像 
геі, іт=пусар.геаа () 
prev pic-cv2.cvtColor (im,cv2.COLOR BGR2GRAY) 
while True: Е 
геі, іт=пусар.геаа () 
# 采 集 
pic-cv2.cvtColor (im,cv2.COLOR BGR2GRAY) 
# 计 算 流 
myflow-cv2.calcOpticalFlowFarneback (prev pic,pic,0.5,3,15,3,5,1,0) 
$E E SUE 
prev pic-pic 
FAR UAE 
cv2.imshow('myvideo flow ',flowdraw (pic,myflow)) 
# 每 15 毫 秒 采集 1 次 
key-cv2.waitKey (15) 
# 空 格 键 退 出 
if key==32: 
break 






















































































图 11-22” 光 流 法 


观察 图 11-22， 从 流 矢量 线条 及 箭头 的 方向 中 可 以 发 现 手电 简 正 在 从 左 到 右 移动 。 








K 最 近邻 (KNN, k-NearestNeighbor) 分 类 算法 可 以 说 是 整个 数据 分 类 技术 中 最 简单 的 方法 了 。 所 谓 K 最 近邻 ， 就 是 k 个 最 近 的 邻居 的 意思 ， 说 的 是 每 个 样本 都 可 以 用 它 最 靠近 的 k 个 邻居 来 代表 。 
KNN 算 法 的 核心 思想 是 : 如 果 一 个 样本 在 特征 空间 中 的 Kk 个 最 相 邻 的 样本 中 的 大 多 数 都 属于 某 一 个 类 别 ， 则 该 样本 也 属于 这 个 类 别 ， 并 具有 这 个 类 别 上 样本 的 特性 ， 算 法 在 确定 分 类 决策 上 只 需要 依据 最 邻 


Ра] 


近 的 一 个 或 几 个 样本 的 类 别 即 可 决定 待 分 样本 所 属 的 类 别 ， 因 此 ， 在 做 类 别 决策 时 ， 只 与 极 少 量 的 相 邻 样本 有 关 。 


由 于 KNN 方 法 主要 靠 周 围 有 限 的 邻近 样本 ， 而 不 是 靠 判 别 类 域 的 方法 来 确定 所 属 的 类 别 ， 因 此 对 于 类 域 的 交叉 或 重 去 较 多 的 待 分 样本 集 来 说 ，KNN 方 法 较 其 他 的 方法 更 为 合适 。 


以 二 维 样本 为 例 ， 利 用 KNN 方 法 将 样本 分 成 两 类 。 图 11-23 中 三 角形 和 方形 是 已 知 类 别 的 样本 点 ， 这 里 假设 三 角形 为 正 类 ， 方 形 为 负 类 ， 圆 形 点 是 未 知 类 别 的 数据 ， 现 在 需要 利用 这 些 已 知 类 别 的 样本 
对 圆 形 点 进行 分 类 。 





911-23 ”区 近邻 算法 示意 图 


对 图 11-23 的 圆 形 点 进行 KNN 分 类 的 具体 过 程 如 下 : 

1) 事先 定 下 k 值 (就 是 指 K 近 邻 方 法 中 k 的 大 小 ， 代 表 对 于 一 个 待 分 类 的 数据 点 ， 要 寻找 它 的 几 个 邻居 ) 。 为 讲解 方便 ， 取 两 个 k 值 ， 分 别 为 3 和 5。 

2) 根据 事先 确定 的 距离 度量 公式 (如 : KREA) ， 得 出 待 分 类 数据 点 和 所 有 已 知 类 别 的 样本 点 中 ， 距 离 最 近 的 k 个 样本 。 

3) 统计 这 k 个 样本 点 中 各 个 类 别 的 数量 。 如 图 12-15， 如 果 选 定 k 值 为 3， 则 正 类 样本 (三 角形 ) 有 2 个 ， 负 类 样本 (方形 ) 有 1 个 ， 那 么 就 把 这 个 圆 形 数据 点 定 为 正 类 ; 而 如 果 选 择 k 值 为 ?， 则 正 类 样本 
(三 角形 ) 有 2 个 ， 负 类 样本 US) 有 3 个 ， 那 么 将 这 个 数据 点 定 为 负 类 。 即 ， 根 据 k 个 样本 中 ， 数 量 最 多 的 样本 是 什么 类 别 ， 就 把 这 个 数据 点 定 为 什么 类 别 。 


1142 ”形状 特征 提取 


图 11-24 是 三 个 典型 的 形状 ， 分 别 是 方形 、 圆 形 和 三 角形 。 








图 11-24 典型 的 形状 


那么 如 何 提取 图 11-24 所 示 的 三 个 形状 的 特征 呢 ， 可 使 用 距 中 心 距 离 法 ， 具 体 过 程 如 下 : 


1) 确定 图 像 的 中 心 点 center， 通 常 是 图 片 的 中 间 位 置 。 


2) 计算 图 像 线 条 上 的 每 个 点 x 与 中 心 点 center 之 间 的 距离 (两 点 间 的 距离 公式 ) ， 形 成 距离 向 量 d。 


3) 计算 距离 向 量 d 的 标准 差 。 以 标准 差 为 最 终 特征 值 。 


11.4.3 


~ 


本 算法 为 KNN 算 法 的 变 体 ， 本 案例 每 种 形状 只 提供 了 一 个 样本 ， 因 此 ， 将 KNN 算 法 中 的 k 值 取 1， 以 最 近 的 那个 邻近 点 的 类 别 判断 未 知 形状 的 分 类 。 


形状 分 类 


算法 具体 过 程 为 : 首先 采集 样本 图 像 (图 11-24 所 示 的 样本 图 像 文 件 名 从 左 到 右 分 别 是 shape0.png、shape1.png、shape2.png) 的 特征 值 ， 然 后 以 未 知 形状 图 像 的 特征 值 为 分 类 数据 ， 进 行 KNN 分 
最 后 将 未 知 图 像 归 为 上 图 所 示 的 3 类 之 中 ， 从 左边 数 起， 类 别 分 别 为 0 (方形 ) . 1 (IUE) 、2 (三 角形 ) ，Python 代 码 如 程序 11-10.py 所 示 。 

















# -*- coding: utf-8 -*- 
#code :myhasplG8myhaspl.com 
形状 检测 

#11-10.ру 


import cv2 
import numpy as np 
def mydist (pointl,point2): 











# 两 点 间 的 距离 
return 





np.sqrt (np. power ( (pointl[0]-point2[0]),2)-*np.power ( (pointl[1]-point2[1]),2)) 
大 离 中 心 点 距离 的 标准 差 











f getstd (tmpimg,centerpoint): 


w—tmpimg.shape[1] 


mysdenp.std (dst) 
return mysd 
# 读 取样 本 形状 图 像 ， 计 算 标准 差 
imgsd-[] 


dst-[] 
for i in xranoe (h): 





=tmpimg. shape [0] 








for j in xrange(w): 

if tmpimg[i,j]«255: 
# 该 像素 不 是 空白 ,是 线条 中 的 点 
dst.append (mydist ( (i,j),centerpoint)) 


= 























for 


print 





БОЯ 


test 
mysdratio-[] 
centerpoint- (26,26) 


myimg-cv2.resize (newimg, (51,51)) 


imgsd-[] 


i in xrange (3): 
tmpimg- (cv2.imread ("shape"+str (1) +" .рпд")) 


myimg-cv2.cvtColor (tmpimg,cv2.COLOR BGR2GRAY) 























retval, newimg-cv2.threshold (myimg,40,255,cv2.THRESH BINARY) 

















— 


imgsd.append (getstd (myimg, centerpoint)) 





i in xrange(4): 

# 测 试 样本 

fn="shapetest "+str(i)+".png" 

tmpimg- (cv2 .imread (fn)) 

myimg-cv2.cvtColor (tmpimg,cv2.COLOR BGR2GRAY) 

retval, newimg-cv2.threshold (myimg, 40,255, су2.ТНКЕЅН BINARY) 
myimg-cv2.resize (newimg, (51,51)) 

得 到 距离 标准 差 
testimgsd.append (getstd (myimg, centerpoint)) 
mysdratio.append([l) 

for ii in xrange (3): 

与 样本 进行 比较 
mysdratio[i].append (abs (testimgsd[i]-imgsd[ii])) 







































































print u"KNN3E 5 40 F" 


print mysdratio 
print "-==-==----=—--== 


#EKNN 算 法 ， 找 到 最 近 久 





ТОШ 


i in xrange (4): 

fn="shapetest "-*str(i)-*".png" 

myindex-0 

mymin-np.min (mysdratio[i]) 

for ii in xrange(3): 

# 测 试 样本 最 终 分 类 

if (mysdratio[i] [ii])==mymin: 
myindex-ii 
break 

print fn+u" 分 类 为 : "+str (myindex) 














执行 程序 11-10.py 后 ， 输 出 KNN 距 离 矩阵 及 分 类 结果 ， 类 别 0 表示 方形 ， 类 别 1 表示 圆 形 ， 类 别 2 表示 三 角形 。 结 果 如 下 : 


KNNJE 85 6650 F 
[[0.71030223330565079, 0.75471514364899916, 3.9533561391620591], 


[1.2922713309313281, 


0.17274604602332189, 





4.53532523678777364], 


[2.0123227209027084, 


3.4773400978573585, 1.2307: 














shapetest 0.png 分 类 为 : 0 
shapetest 1.png 分 类 为 : 1 
shapetest 2.png 分 类 为 : 2 
shapetest 3.png 分 类 为 : 0 








程序 11-10.py 使 用 的 测试 图 像 如 图 11-25 所 示 。 








shapetest O.png shapetest l.png shapetest 2.png shapetest 3.png 


11-25 MRA 
观察 图 11-25 及 程序 11-10.py 的 输出 结果 ， 可 发 现 测试 图 像 的 分 类 结果 是 正确 的 ， 效 果 还 不 错 。 


为 提高 分 类 准确 率 ， 实 践 中 可 采用 标准 的 KNN 算 法 ， 为 每 种 形状 提供 更 多 的 样本 ， 分 类 的 方法 为 : 如 果 与 未 知 形状 的 k 个 最 相似 的 大 多 数 样 本 属于 某 一 个 类 别 ， 那 么 该 未 知 形状 也 属于 这 个 类 别 。 


115 小结 


计算 机 视觉 研究 使 机 器 能 看 懂 图 像 ， 属 于 人 工 智能 和 机 器 学 习 的 范畴 。 目 前 机 器 视觉 实现 的 主要 方式 是 : 首先 ， 使 用 摄像 机 等 设备 采集 画面 ， 生 成 数字 图 像 ; 然后 ， 对 图 像 进行 预 处 理 和 加 工 ， 提 取 特 
征 ; 最 后 ， 分 析 图 像 特征 ， 挖 掘 图 像 包含 的 知识 和 信息 。 本 章 讲 述 了 运用 机 器 学 习 算 法 对 视频 和 图 像 进行 加 工 、 分 析 、 提 取 特 征 、 总 结 知识 等 技术 ， 首 先 介绍 了 人 脸 辨 识 的 算法 ， 然 后 讲解 了 手写 数字 识别 
的 算法 ， 最 后 讲述 了 运动 侦 测 技术 和 形状 检测 的 方法 ， 在 进 解 这 些 算法 的 过 程 中 ， 注 重 实践 效果 ， 每 个 实例 均 用 Python 进行 实现 ， 以 验证 算法 的 有 效 性 。 


cH 
dk 
Ёш 


(1) 以 多 个 图 像 进行 更 多 的 人 脸 辨 识 实验 ， 尝 试 应 用 更 多 的 机 器 学 习 算 法 ， 比 如 应 用 SVM 和 神经 网 络 ， 或 者 对 欧 氏 距离 算法 进行 进一步 改进 ， 对 人 脸 的 不 同 部 位 赋予 不 同 的 权重 ， 总 结 各 算法 的 实际 
应 用 效果 。 


(2) 实现 从 a 到 z 的 24 个 字母 图 像 的 识别 算法 ， 要 求 识 别 未 知 样本 图 像 表 征 的 字母 。 


М.У 


(3) 运用 本 章 介绍 的 运动 侦 测 方法 ， 分 析 自 己 的 计算 机 摄像 头 所 采集 的 视频 。 


(4) 运用 本 章 介绍 的 形状 检测 方法 或 其 他 方法 ， 对 某 类 复杂 的 鼠标 (或 触摸 屏 输 入 ) 手势 进行 识别 ， 比 如 以 下 手势 : 





在 网 络 信息 时 代 ， 全 球 正面 临 着 前 所 未 有 的 信息 爆炸 式 增长 的 挑战 ， 中 文 信息 处 理 也 迎 来 了 高 速 发 展 。 如 果 拥 有 着 海量 的 中 文 文字 数据 对 数据 知识 的 提取 依旧 停留 在 过 去 简单 查询 、 检 索 的 水 平 上 ， 那 
么 就 会 导致 所 谓 的 “数据 爆炸 但 知识 贫乏 ”的 现象 。 从 中 文 信 息 中 获取 知识 ， 快 速 有 效 地 组 织 和 管理 用 户 所 要 的 信息 是 当前 信息 科学 和 技术 所 面临 的 重要 挑战 。 


数据 挖掘 技术 致力 于 从 海量 数据 中 提取 有 用 的 信息 ， 文 本 分 类 等 文本 挖掘 技术 则 属于 数据 挖掘 领域 中 被 研究 的 热点 。 文 本 挖掘 是 人 工 智能 、 机 器 学 习 、 自 然 语 言 处 理 、 数 据 挖 掘 及 相关 自动 文本 处 理 
(如 信息 抽取 、 信 息 检 索 ) 等 领域 中 理论 和 技术 结合 的 产物 。 文 本 分 类 是 文本 挖掘 领域 的 一 个 重要 分 支 ， 而 且 逐 渐 成 为 一 个 日 益 重要 的 研究 领域 。 自 动 文 本 分 类 则 会 依据 文本 内 容 ， 由 计算 机 根据 某 种 自动 
分 类 算法 把 文本 划分 为 预先 定义 好 的 类 别 ， 它 是 对 复杂 类 型 的 数据 进行 挖掘 的 技术 。 


12.1 文本 分 类 概述 


近年 来 ， 随 着 互联 网 的 高 速 发 展 和 大 数据 时 代 的 到 来 ， 文 本 分 类 等 文本 挖 扬 技 术 应 用 于 越 来 越 多 的 领域 。 互 联网 和 大 数据 是 信息 技术 发 展 催生 的 一 对 李 生 子 。 互 联网 能 够 方便 、 准 确 地 记录 用 户 数据 ， 
产生 了 大 量 的 半 结 构 化 、 非 结构 化 的 文本 数据 ， 这 也 使 互联 网 成 为 大 数据 分 析 应 用 最 广泛 的 领域 之 一 。 例 如 : 搜索 引擎 技术 的 基础 就 是 基于 文本 分 析 算 法 的 ， 而 面向 互联 网 用 户 的 精准 营销 则 是 以 广告 数据 
分 析 (现在 已 经 催生 了 一 门 科 学 “计算 广告 学 ”) 为 依据 的 。 海 量 文 档 数 据 库 需要 高 效 的 文本 挖掘 算法 作为 数据 索引 、 查 询 分 析 的 核心 算法 ， 智 能 输入 法 需要 分 析 用 户 输 入 习惯 及 输入 的 词句 ， 自 动 客服 系 
统 由 原始 的 词语 匹配 技术 转变 为 基于 文本 挖掘 的 自然 语言 理解 算法 。 


分 类 技术 是 数据 挖掘 中 非常 重要 的 分 支 。 分 类 就 是 根据 数据 集 的 特点 找 出 类 别 的 概念 描述 ， 这 个 概念 描述 代表 了 这 类 数据 的 整体 信息 ， 也 就 是 该 类 的 内 涵 描 述 ， 使 用 这 种 类 的 描述 可 对 未 来 的 测试 数据 
进行 分 类 。 


文本 挖掘 算法 在 搜索 引擎 中 一 直 扮 演 着 重要 的 角色 ， 搜 索引 警 每 个 阶段 的 发 展 都 伴随 着 文本 挖掘 技术 的 进步 。1990 年 ， 作 为 可 搜索 FTP 文 件 名 列表 的 Archie， 通 过 文件 名 匹配 技术 完成 了 文本 检索 。 
1993 年 ， 世 界 上 第 一 个 Spider 程序 一 World Wide Web Wanderer 开 始 在 网 络 间 有 候 取 资料 ， 统 计 互联 网 上 的 服务 器 数量 。 同 年 ，Stanford 大 学 的 学 生 创造 了 Excite， 它 通过 分 析 字 词 关系 进行 更 有 效 的 检 
索 ， 文 本 挖掘 技术 再 次 进步 。1994 年 ， 杨 致远 和 David Filo 共 创办 了 Yahoo，Yahoo 网 站 的 分 类 目录 由 人 工整 理 维护 ， 他 们 会 精 选 互联 网 上 的 优秀 网 站 ， 进 行 简 要 描述 后 ， 分 类 放置 到 不 同 目录 下 。 用 户 查 
询 时 ， 通 过 一 层 层 的 点 击 来 查找 自己 想 找 的 网 站 ， 人 工分 类 精准 度 高 ， 但 工作 量 很 大 。 同 年 L[ycos 正 式 发 布 ，Lycos 使 用 了 更 先进 的 文本 挖掘 技术 ， 包 括 : 相关 性 排序 、 前 缀 匹配 和 字符 相近 限制 、 网 页 自动 
摘要 等 。1995 年 ， 更 多 的 文本 挖掘 技术 陆续 产生 ，AltaVista 在 搜索 引擎 中 引入 了 自然 语言 搜索 技术 ， 实 现 高 级 搜索 语法 (如 AND、OR、NOT 等 ) 。1997 年 ， 文 本 自动 分 类 技术 首次 应 用 于 Northernlight 
搜索 引 警 ， 该 搜索 引擎 支持 对 搜索 结果 进行 简单 的 自动 分 类 。 同 年 ，google.com 的 域名 被 Larry Page 注 册 ，Google 横 空 出 世 ， 之 后 发 展 成 为 今天 的 搜索 业 巨 头 。2013 年 全 球 在 线 广 告 营 收 中 ，Google 预 


计 占 有 超过 33% 的 市 场 份额 ， 在 全 球 移动 广告 营 收 中 ，Google 的 市 场 份额 约 56%。Google 人 研究 和 应 用 了 大 量 文本 挖掘 算 法 ， 例 如 : Pagerank、 动 态 摘要 、 网 页 快照 、DailyRefresh、 多 文档 格式 支持 等 。 
有 人 评论 说 Google 永 远 改变 了 搜索 引 警 的 定义 。2001 年 ， 百 度 搜索 引 警 发布 ， 和 Google 一 样 ， 百 度 也 研发 和 使 用 了 很 多 文本 挖掘 算法 : 网 页 快照 、 相 关 搜 索 词 、 错 别 字 纠正 、Flash 搜 索 、 信 息 快 递 搜索 、 


图 像 搜索 、 新 闻 搜 索 等 。 


近年 来 ， 借 助 模式 识别 算法 ， 文 本 分 类 技术 飞速 发 展 。 文 本 分 类 大 致 分 为 几 个 要 素 : 文本 向 量 模型 表示 、 文 本 特征 选择 和 文本 训练 分 类 器 。 目 前 比较 流行 的 分 类 方法 主要 有 SVM、 改 进 余弦 相似 度 、 贝 
叶 斯 方法 、 神 经 网 络 、k2 最 近 令 方法、 遗传 算 法 、 粗 糙 集 等 。 文 本 分 类 算法 通常 包括 文本 预 处 理 (中 文 分 词 、 去 除 停 用 词 ) 、 文 本 特征 提取 、 样 本 特征 学 习 及 算法 对 未 知 样本 的 预测 等 过 程 。 


本 章 将 以 余弦 相似 度 、 朴 素 贝 叶 斯 分 类 算法 为 主 ， 曾 述 文本 分 类 技术 。 


122 余弦 相似 度 分 类 


基于 余弦 相似 度 的 文本 分 类 算法 实现 的 基本 过 程 为 : 首先 对 样本 文本 进行 分 词 ， 接 着 将 垃圾 词 剔 除 ， 然 后 根据 乙 除 后 的 词 条 把 样本 文本 中 的 所 有 词 映 射 到 n 维 空间 的 一 个 向 量 上 ， 并 计算 未 知 文本 特征 组 
形成 的 向 量 与 各 类 别 特征 组 向 量 之 间 夹 角 的 余弦 值 ， 最 后 通过 比较 余弦 值 的 大 小 判断 最 接近 的 分 类 。 


122.1 中文 分 词 


中 文 分 词 指 的 是 将 一 个 汉字 序列 切 分 成 一 个 个 单独 的 词 。 中 文 分 词 是 文本 挖掘 的 基础 ， 对 于 一 段 中 文 文 本 ， 中 文 分 词 是 文本 自动 识别 的 前 提 。 目 前 常用 的 中 文 分 词 软件 主要 有 以 下 几 种 : 


. SCWS。 基 于 词 频 词典 的 机 械 中 文 分 词 引 擎 ， 它 能 将 一 整 段 的 汉字 基本 正确 地 切 分 成 词 。 采 用 的 是 采集 的 词 频 词典 ( 词 频 TF 指 菜 一 个 给 定 的 词语 在 一 份 给 定 的 文件 里 出 现 的 次 数 ， 近 年 来 ， 利 用 计算 
机 进行 词 频 统 计 ， 以 词 频 统 计 的 结果 来 验证 词典 收 词 的 得 失 ， 决 定 哪些 词 需要 收录 ， 中 文 词 频 词 典 按 词 频 排序 存储 词语 和 词组 ) ， 并 辅 以 一 定 的 专 有 名 称 、 人 名 、 地 名 、 数 字 、 年 代 等 识别 规则 ， 从 而 达到 
基本 分 词 的 目的 。 


- ICTCLAS。 这 是 最 早 的 中 文 开 源 分 词 项 目 ， 在 国内 973 专 家 组 组 织 的 评测 活动 中 获得 了 第 一 名 ， 在 第 一 届 国 际 中 文 处 理 研究 机 构 SigHan 组 织 的 评测 中 获得 了 多 项 第 一 名 。ICTCLAS 全 部 采用 C/C++ 编 
写 ， 支 持 Linux、FtreeBSD 及 Windows 系 列 操作 系统 ， 支 持 C/C++、C#、Delphi、Java 等 主流 的 开发 语言 。 

: HTTPCWS。 基 于 HTTP 协 议 的 开源 中 文 分 词 系统 ， 将 取代 之 前 的 PHPCWS 中 文 分 词 扩展 。 

. 记 丁 解 牛 分 词 。 仅 支持 Java 语 言 ， 且 提供 lucence (一 款 流行 的 Java 全 文 搜索 引擎 ) 接口 。 

: CC-CEDICT。 提 供 一 份 以 汉语 拼音 为 中 文 辅助 的 汉 英 锌 典 ， 其 词典 可 以 用 于 中 文 分 词 ，Chrome 中 文 版 就 是 使 用 这 个 词典 进行 中 文 分 词 的 。 


“结巴 ” (Jieba) 中 文 分 词 。Python 中 文 分 词组 件 Jieba 支 持 3 种 分 词 模式 : 精确 模式 ， 试 图 将 句子 最 精确 地 切 开 ， 适 合 文本 分 析 ; 全 模式 ， 把 句子 中 所 有 的 可 以 成 词 的 词语 都 扫描 出 来 ， 速 度 非常 快 ， 
但 是 不 能 解决 歧义 ; 搜索 引擎 模式 ， 在 精确 模式 的 基础 上 ， 对 长 词 再 次 切 分 ， 提 高 招 回 率 ， 适 合用 于 搜索 引擎 分 词 。 


本 章 基 于 Python 实现 算法 ， 因 此 选择 “结巴 ”中 文 分 词 作为 分 词组 件 库 。 可 在 http://pypi.python.org/pypiyjieba 处 下 载 ， 解 压 后 运行 pythonsetup.py install 进 行 安装 。 下 面 的 代码 演示 了 分 词组 件 
Jieba 的 基本 使 用 方法 。 


#!/usr/bin/env python 

f-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#12-1.ру 

import sys 

sys.path.append ("http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 





























import jieba 




















seg list = ]jieba.cut(" 我 来 到 北京 清华 大 学 "，cut all-True) 
print "Full Mode:", "/ ".join(seg list) # 全 模式 

seg list = ]jieba.cut(" 我 来 到 北京 清华 大 学 "cut all-False) 
print "Default Mode: '/ ".join(seg list) # 默认 模式 





seg list - jieba.cut ("他 来 到 了 网 易 杭 研 天 厦 ") 
print ", ".join(seg list) 

seg list = jieba.cut for search ("小 明 硕士 毕业 于 中 国 科学 院 计 算 所 ， 后 在 日 本 京都 大 学 深造 ") # 搜索 引擎 模式 
print ", J 
































".join(seg list) 
演示 程序 的 分 词 效果 如 下 : 


/ 我 / 来 到 / 北京 / 清华 / 清华 大 学 / 华 大 / 大 学 / 
5 ж/ж 


Default Mode: 我 / / | / Л 清华 学 他 ， жа], dig ma, JUPE, 大 厦 小 明 ， 硕士 ， 毕业 ， T: "TH, TUE, 学 院 ， THEE, 中 国 科 学 院 ， HË, 计算 所 ， (or. 后 ， £, HA, 京都 ， K, 日 本 京都 大 学 ， 深造 


» 





中 文 分 词 有 一 个 困难 ， 就 是 会 遇 到 歧义 。 同 样 的 一 句 话 ， 可 能 有 两 种 或 者 更 多 的 切 分 方法 。 主 要 的 歧义 有 两 种 : ЭЖЕШ DEBERE M. DURO: 语句 中 出 现 了 “漂亮 的 。”， 因 为 “漂亮 WU $e 
的 ”都 是 词 ， 那 么 这 个 短语 就 可 以 分 成 “漂亮 /的 ”和 “ 漂 / 亮 的 。”， 这 种 称 为 交集 型 歧义 。 组 合 型 歧义 情况 更 复杂 ， 要 根据 整个 句 型 来 判断 ， 比 如 : 句子 “2010 年 底部 队友 谊 篮球 赛 结束 ”，“ 底 部 ”是 一 
个 词 ，“ 年 底 ” 是 一 个 词 ，“ 部 队 ” 是 一 个 词 ，“ 队 友 ” 是 一 个 词 ，“ 友 谊 ”是 一 个 词 ， 而 分 词 不 能 曲解 句子 含义 ， 这 样 就 产生 了 分 词 困难 。 


目前 大 部 分 分 词 软件 能 较 好 地 解决 歧义 问题 。 下 面试 着 应 用 “结巴 ”分 词 对 “2010 年 底部 队友 谊 篮球 赛 结 束 ” 分 词 。 代 码 如 下 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#12-2.ру 

import jieba 

seg list = jieba.cut ("2010J4EK 3p EA Ab ist А put cut all-False) 
print "Default Mode:", "/ ".join(seg list) # 默认 模式 








从 下 面 的 执行 结果 来 看 ， 分 词 效果 很 理想 。“ 结 巴 ” 


分 词 技术 比较 成 熟 ， 


能 应 用 于 实际 工程 中 。 





Default Mode: 
loading model 











Building Triehttp://www.hzcourse.com/resource/readi 
from cache c:NusersNadmini-1NappdataMlocalNtempVjieba.cache 
2010/ 年 底 / 部 队 / 友谊 / 篮球 赛 / 结束 

loading model cost 1.26200008392 seconds. 

Trie has been built succesfully. 




















上 面 执行 结果 的 第 一 行 中 的 Trie 是 一 种 数据 结构 ， 
直接 保存 在 节点 中 的 ， 而 是 由 节点 在 树 中 的 位 置 决定 的 。 


“结巴 ”分 词 使 用 它 构 造 


一 个 节点 的 所 有 子孙 都 有 相同 的 前 级 ， 


12.2.2 {НӘ 


停 用 词 又 称 垃圾 词 。 完 成 自然 语言 理解 与 文本 分 类 等 任务 时 ， 都 需要 预 处 理 文本 ， 自 动 过 
条 组 中 会 存在 很 多 停 用 词 ， 这 些 词 基 本 不 具备 表示 文本 特征 的 能 力 ， 其 存 


例如 : 对 下 面 这 句 话 进行 
如 下 : 


分 词 : 


“春秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 慢 ， 


f!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code :myhaspl(qq. com 

#12-3.ру 

import jieba 

seg list = jieba.cut ("春秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 慢 ， 今 天 去 瞧 瞧 ， 



































































































































Book?path-/openresources/teach ebook/uncompressed/15753/0E 


告 词 条 字典 。Trie 称 前 缀 树 或 字典 树 ， 


才 滤 挤 某 些 不 能 表征 意义 的 字 、 词 或 符号 ， 
企 会 影响 其 他 词 对 文本 


明天 去 看 看 ， 





BPS/Text/..., 








E: WinPython-32bit-2.7.5.1Wpython-2. 





from 








是 一 种 有 序 树 ， 用 于 保存 关联 数组 ， 其 中 的 键 通 
节点 对 应 的 字符 串 ， 而 根 节点 对 应 空 字符 串 。 


字符 串 。 与 二 叉 查找 树 不 同 ， 键 不 是 
也 就 是 这 个 


这 些 字 或 词 被 称 为 停 用 词 (Stop Words) 。 进 行文 本 分 词 后 形成 的 词 


寺 征 的 表征 能 力 ， 因 此 ， 需 要 过 滤 后 才能 形成 “干净 ”的 文本 特征 码 。 
今天 去 瞧 瞧 ， 明 天 去 看 看 ， 觉 得 禾苗 好 像 总 没有 长 高 。 他 心 想 : 有 什么 办 法 能 使 它们 长 得 高 些 快 些 呢 ? ”代码 


党 得 禾苗 好 像 总 没有 长 高 。 他 心 想 : 有 什么 办 法 能 使 它们 长 得 高 些 快 些 呢 ? ", cut all-False) 
























































print "Default Mode:", "/ ".join(seg 1ist)## 默 认 模式 
ОРТО E ET 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
分 词 效果 如 下 : 
春秋 时 期 / 有 / 一 个 / 农夫 / ，/ 他 / 总 是 / 嫌 / 田 里 / 的 / 庄稼 / 长 得 / 太 慢 / ，/ 今天 / 去 / 瞧 瞧 / ，/ 明天 / 去 / 看 看 / ，/ 觉得 / 禾苗 / 好 像 / 总 / 没有 / 长 高 / 。/ 他 / 心 想 / : / 有 / 什么 / 办 法 / 能 / 使 
上 述 分 词 结果 中 ，“ 有 ” CSS UR “什么 ”等 词 以 及 标点 符号 都 属于 停 用 词 的 范围 ， 应 对 其 进行 清理 。 清 理 的 方式 是 建立 停 用 词 表 ， 扫 描 分 词 结果 ， 从 中 吻 除 停 用 词 表 中 的 词 条 。 代 码 如 下 : 
#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq.com 
#12-3.ру 
import jieba 
seg list = Jiepa.cut(" 春 秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 慢 ， 今 天 去 瞧 瞧 ， 明 天 去 看 看 ， 沉 得 禾苗 好 像 总 没有 长 高 。 他 心 想 : 有 什么 办 法 能 使 它们 长 得 高 些 快 些 呢 ? ", cut all-False) 
liststr-"/ " -join(seg. list) 
print u"------ 清理 前 的 词 条 二 = 二 二 二 二 二 二 
print "Default Mode:", liststr## 默 认 模式 
print u"------ 清理 后 的 词 条 --------- 
# 停 用 词 清理 
f stop = open('stopwords.txt') 
try: 

Е stop text = f stop.read( ) 

f stop tex t-unicode(f stop text, 'utf-8') 
finally: Е Е 

f stop.close( ) 
f stop seg list-f stop text.split('Mn') 
for myword in liststr.split('/'): 

if not(myword.strip() in f stop seg list) and len (myword.strip())»1 

print myword, ',', i 

从 直观 上 看 ， 清 理 停 用 词 后 留 下 的 文本 词 条 表征 文本 的 能 力 都 比较 强 。 来 比较 一 下 : 
sP === 清理 前 的 词 条 --- 一 -一 -一 
Default Mode: 春秋 时 期 / 有 / 一 个 / 农夫 / ，/ 他 / 总 是 / 嫌 / 田 里 / 的 / 庄稼 / 长 得 / 太 慢 / ，/ 今天 / 去 / 瞧 瞧 / , / 明天 / 去 / 看 看 / ，/ 觉得 / 禾苗 / 好 像 / 总 / 没有 / 长 高 / 。/ 他 / 心 想 / : / 有 / 什么 
= 清理 后 的 词 条 --------- 春 秋 时 期 , sede; 农夫 , 总 是 , чт, 庄稼 7 长 得 , 大 慢 , 今天 , RERE , 明天 , 看 看 , 觉得 , Ж , 好 像 , 长 高 , 心 想 , 办 法 ， 长 得 高 些 


12.2.3 ”算法 实战 


1. 任 务 描述 


假设 提供 了 一 个 描述 战争 的 样本 数据 ， 如 图 12-1 所 示 。 现 在 需要 对 两 个 未 知 类 型 文本 进 


了 分 析 ， 它 们 的 内 容 如 图 12-2 和 图 12-3 所 示 ， 判 断 哪 个 文本 是 描述 战争 类 的 。 
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8 月 31 日 电 E ФАНЕ, ЕЕЕ зен, modi URN a 
| GEB NUS ЕЛЕЙ ЕССЕ ВАСА. AEETI 快速 锁定 > 
URP, EA BIR E 的 攻击 。 


美国 军 方 强调 , “圣安东尼奥 号 ”USS San hntonio]) 为 两 栖 战舰 ， 任务 与 其 他 军舰 不 同 > 
， 填 对 用 利 炎 发 动 军事 行动 ，“ 和 至 安东尼 生 " 曼 舰 上 数 百 名 陆 战 队 员 涉 会 若 与 作战 。 


美军 一 名 官员 表示 ， 先 前 就 规划 派遣 * 笃 安东尼 奥 ' 号 至 地 中 海 ， 不 过 官员 认为 ， 根 据 目 
ИЕ, P RSBSRIKAQE A ais эй А>. 


“全 安东尼 与 "号 留 娃 当地， 是 为 以 防 万 一 。 


与 巴 马 政 府 36 日 公布 4 页 长 的 情报 报告 ， 宣 市 美国 " 锅 度 确信 АЦА ERB ERE 
大 与 十 时 部 区 使 用 了 化 于 起 医 ， 导 阁 超 过 1489 和 死亡， 美国 此 年 阿 萨 德政 权 


ШЕЕ 5 АУЕ ВЈ, Зат ТЕВЕ ЗВ 59А > 
‚а= Ға ЕЕЕ лазат, ЖЛ ФЕ ИТНЕ НЕНИ АЛОЕ 
Wu, ЗЕТЕ DIS) ВИА ze 55S < 


[HE], zE3EBP тне ДХ ENSIS = РЕҢ» Вит 125-8) ЕЖЕ SME As3E 
质 ， 禄 在 印度 洋 待命 ， 与 已 经 抵达 阿拉 怕 海 换 防 的 糙 曾 门 ' 宇 航 苹 一 道 驻 宁海 六 地 区 。 


ЛАЗЕ БАРЕ, ГА ЕЗУ АВ 7 зет 5, 27) 7)2ввј. 





121 描述 战争 的 样本 文本 


EN SEE) ТАП) EAS eE EAW) SEA) 


iE iu == 
bis 秆 是 十 分 神秘 的 ， ЯПАН) ' nes р DENS JR 


CUR M 
f ја 
ЗЕТЕ, ЖЕЕ Eam ЕЕ. 建造 者 必须 ; 

好 并 精确 是 位， 这 样 才能 和 Jib a N 开始 ， 一 点 一 点 кын | 


Xii 
HHI 一 


+ 


j EP ААИ, БАЗ 


ape m sms 
Si [Brun m 





图 12-2 ”描述 战争 的 未 知 类 型 文本 
2. 算 法 过 程 
用 余弦 相似 度 算法 完成 上 述 文本 分 类 任务 的 过 程 如 下 : 
1) 读 取 样本 文本 。 
2) 对 文本 进行 utf-8 编 码 转换 。 
3) 对 文本 进行 预 处 理 ， 完 成 中 文 分 词 ， 形 成 词 条 库 ， 并 去 除 停 用 词 。 
Д) 读 取 文本 词 条 库 ， 统 计 每 个 词 条 的 词 频 。 词 频 代表 了 每 个 词 对 一 段 文 本 的 的 重要 程度 ， 字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 。 


5) 将 上 一 步 整理 形成 的 每 个 词 的 词 频 组 成 文本 的 词 条 词 频 特 征 码 。 


文件 (月 ”编辑 (E) ТАП) 语法 ($) HRe) 窗口 (W) #Bh(H) 

cg 9g X TANE SAR] T dial? 

pde КЕЛЕГ 月 的 丛生 5 ‚ REBA (58.55, -8.63, -1.23%)[ 2 ^ 
为 在 三 太 运 mi. ICAT, E 户 都 有 pat тая 

Ча 7 78718 “ВЕН, HETEBTAG EA RAHAA E 

Ar Ae LE 。 不 过 ， 广 州 电信 有 关 负责 人 昨日 对 本 报 ; 记者 表 未。 

BI, xXx EDS Рае), Ai AS К ЫЕ A S S 9] y = 


ЖА, 0А ， 目 己 购 买 的 每 月 15@ 的 手机 流量 ， 孝 当月 没有 用 完 ， 下 月 
\ 平 ， 疼 因此 诉 诸 法 律 。 记 者 发 现 ， 持 同样 章 见 的 消费 者 不 生 


M umen We? 记 角 随后 进行 了 验证 ， 按 该 怪 销 活动 规则 
| UN ELE BUM 比如 当月 使 用 3 手机 党 


al 
E, eise UE. 赠 还 流量 当月 有 效 )， Bina 
ND Tjk”, ARRA). 


w. peer 但 是 ,广州 电信 相关 负责 人 表 
H IA S 


个 全 限制 条 件 ， 未 来 有 省 ED "ВЕК, HA НЕГЫ, 


信 表 示 ， 活 动 只 在 今年 内 有 效 ， 但 会 根据 促销 情况 ， 继 续 进 行 活 





图 12-3 ”描述 手机 的 未 知 类 型 文本 
6) 使 用 前 面 第 1 步 到 第 5 步 的 方法 分 析 待 分 类 文本 ， 生 成 待 分 类 文本 的 词 条 词 频 特征 码 。 
Т) 将 待 分 类 文本 的 词 条 词 频 特 征 码 与 样本 的 词 条 词 频 特征 码 进 行 比较 ， 应 用 余弦 相似 度 算法 判断 待 分 类 文本 与 样本 的 相似 度 ， 取 最 相似 的 类 型 为 最 终 分 类 的 类 型 。 
下 面 用 Python 实现 上 述 算法 过 程 。 


1) 读 取样 本 文本 ， 完 成 utf-8 编 码 转换 ， 然 后 进行 中 文 分 词 。 
int 
print 'loadi ing http: //www.hzcourse.com/resource/readl 


print 'working', 
fl = с 
try: 








Book?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 

















1 text = fl.read( ) 
F1 text-unicode(fl text,'utf-8') 












































Е] .close( ) 
fl seg list = jieba.cut(fl text) 











2) 对 文本 词 条 进行 预 处 理 ， 去 除 停 用 词 ， 计 算 每 个 词 条 的 词 频 。 





# 去 ps 词 ， 同 时 构造 样本 词 的 字典 


top = open('stopwords.txt') 











stop text = f stop.read( ) 
f stop text-unicode(f stop text, 'utf-8') 
S 





























1 top. close( ) 

f stop seg list-f stop text.split('Wn') 

test могаѕ= { } 

all могаз={ } 

for mywon P in fl seg list: 
prin 

if Bc E rd.strip() in f stop seg list): 

test | words.setdefault (myword, 0) 

all words. setdefault (myword, 0) 

all words [myword]-4-1 

































































3) 读 取 待 分 类 文本 ， 进 行 中 文 分 词 。 











# 第 一 个 待 测 а 
ftestl = open(ftestlfn) 



































e 
ry: 
ftestl text = ftestl.read( ) 
Ftestl text-uni icode (f testl text,'utf-8') 
finally: ` i 
F тоу ) 






































Ftest = jieba.cut(ftestl text) 
UR CAPRIS 


ftest2 = open(ftest2fn) 






































ry: 
ftest2 text - ftest2.read( ) 
ftest2 text-uni icode(ftest2 text, 'utf-8') 
nal] E 























y: 
ftest2.close( ) 
ftest2 seg list - jieba.cut(ftest2 text) 














Д) 继续 预 处 理 待 分 类 文本 ， 去 除 停 用 词 ， 并 生成 词 频 特征 码 。 


# 读 取 待 测试 文本 
mytestl words- -copy. deepcopy (test words) 
for myword in ftestl seg list: 
print Ë "т "s 
LE not (myword. strip() in f stop seg list): 
if mytestl words.has | key (myword) : 
mytestl . words [myword] += 1 
mytest2 words-copy.deepcopy (test words) 
for myword in ftest2 | Seg list: 
princ ".", 
if not(myword.strip() in f stop seg list): 
if mytest2 words.has _ key (myword) : 
mytest2 | words [myword] += 1 













































































5) 计算 并 输出 样本 与 待 测试 文本 的 余弦 相似 度 。 


# 计 算 样 本 与 待 测试 文本 的 余弦 相似 度 

sampdata-[] 
testldata-[] 
test2data-[] 
for key in all words.keys(): 
sampdata.append(all words [key] ) 
ctestldata.append (mytestl words [key] ) 
cest2data.append (mytest2 words [key] ) 
testlsimi-get cossimi (sampdata,testldata) 
test2simi-get | cossimi (sampdata, test2data) 











































































































print u"£s 4f A [55] 097 4 X384A E : S£" $ (£testlfn,sampfn,testlsimi) 
print u"$sJ 4f &[$s ja $f"$(ftest2fn,sampfn,test2simi) 








上 面 这 段 代 码 调 用 了 get_cossimi 函 数 ， 这 是 余弦 相似 度 计 算 函 数 。 该 浮 数 的 定义 如 下 : 





def get cossimi (x,y): 
myx-np.array (х) 
myy-np.array (y) 
cosl-2np.sum (myx*myy) 
соѕ21=пр. sqrt (sum (myx*myx) ) 
cos22-np.sqrt (sum (myy*myy) ) 
return cos1/float (cos21*cos22) 








6) 根据 屏幕 输出 的 相似 度 ， 预 测 分 类 。 


两 个 向 量 之 间 的 角度 余弦 值 确定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 如 果 两 个 向 量 有 相同 的 指向 ， 余 弦 相 似 度 的 值 为 1; 如 果 两 个 向 量 夹 角 为 90， 余 弦 相 似 度 的 值 则 为 0。 可见 ， 余 弦 相 似 度 越 接近 1 
两 个 文本 就 越 相似 。 





http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 
mobile2.txt 与 样本 [war2.txt] 的 余弦 相似 度 :0.160806 
warl .txt 与 样本 [war2.txt] 的 余弦 相似 度 :0.264215 


























上 面 是 代码 的 执行 结果 ， 分 析 这 个 结果 可 得 出 结论 : mobile2.txt 与 war2.txt 的 余弦 相似 度 较 小 ，war1.txt 与 war2.txt 的 余弦 相似 度 为 0.264215， 更 接近 1。 因 此 ， 应 将 war1.txt 文 本 文件 划分 为 战争 类 


以 下 是 全 部 源 代码 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhasplqq. com 





#12-4.ру 

import numpy as np 
import jieba 

import copy 











Ftestlfn-'mobile2.txt' 
2fn-'warl.txt' 
sampfn-'war2.txt' 
def get cossimi (x,y): 
myx-np.array (x) 
myy-np.array (y) 
cosl-2np.sum (myx*myy) 
соѕ21=пр. sqrt (sum (myx*myx) ) 
cos22-np.sqrt (sum (myy*myy) ) 
return cos1/float (cos21*cos22) 
if name == ' main ': 












































print 'loading http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/...' 

















































































































print 'working', 
f1 = open (sampfn) 
try: 
f1 text = fl.read( ) 
Fl text-unicode(f1l text,'utf-8') 
Finally: Е 
fl.close( ) 
fl seg list = jieba.cut(fl text) 
# 第 一 个 待 测试 数据 
ftest] open (ftestlfn) 
try: 
ftestl text = ftestl.read( ) 
Ftestl text-unicode(ftestl text,'utf-8') 
Finally:  — i 





























testl.close( 
Ftestl seg list = 
# 第 二 个 待 测试 数据 
ftest2 open (ftest2fn) 











) 
jieba.cut(ftestl text) 
































































































































try: 
ftest2 text = ftest2.read( ) 
ftest2 text-unicode(ftest2 text,'utf-8') 
finally: ` i 
ftest2.close( ) 
ftest2 seg list = jieba.cut(ftest2 text) 
# 读 取样 本 文本 
# 去 除 停 用 词 ， 同 时 构造 样本 词 的 字典 
f stop = open('stopwords.txt') 
try: 
Е stop text = f stop.read( ) 
f stop text-unicode(f stop text,'utf-8') 
finally: Е Е 
f stop.close( ) 
Е stop seg list-f stop text.split('Mn') 








test могаѕ= { } 
all words- {} 
for myword in fl seg list: 
print "3 
if not(myword.strip() in f stop seg list): 
test words.setdefault (myword, 0) 
al l words.setdef (myword, 0) 





























Fault 

-words [myword] +=1 

#4 读 取 待 测试 交 林 

mytestl words- -copy. deepcopy (test words) 

for myword in ftest] | Seg list: 
print ".", 

f not(myword.strip() in f stop seg list): 












































H- 











if mytestl words.has key (myword): 
mytestl words [myword]-t-1 
mytest2 words-copy.deepcopy (test words) 
for myword in ftest2 seg list: 
nrinb "ы", n 
if not(myword.strip() in f stop seg list): 
if mytest2 words.has key (myword): 
mytest2 words [myword]-t-1 
# 计 算 样 本 与 待 测试 文本 的 余弦 相似 度 
sampdata-[] 
testldata-[] 












































test2data-[] 

for key in all words.keys(): 

sampdata.append(all words[key]) 
testldata.append (mytestl words [key] ) 
ctest2data.append (mytest2 words [key]) 
testlsimi-get cossimi (sampdata,testldata) 

test2simi-get cossimi (sampdata, test2data) 

print u"%s 与 样本 [%s] 的 余弦 相似 度 :Sf"%$ (ftestlfn,sampfn,testisimi) 
print u"%s 与 样本 [%$s] 的 余弦 相似 度 :%f"% (ftest2fn, sampfn, test2simi) 































































































123 ”朴素 贝 叶 斯 分 类 

贝 叶 斯 是 一 种 基于 概率 的 学 习 算 法 ， 其 性 能 可 与 决策 树 、 神 经 网 络 等 算法 相 媲 美 ， 是 文本 分 类 挖掘 技 术 的 典型 代表 。 它 以 贝 叶 斯 定理 为 基础 ， 预 测 成 员 关 系 的 可 能 性 ， 由 于 其 具有 坚实 的 数学 理论 基 
些 应 用 问题 上 表现 出 较 好 的 分 类 精度 ， 因 而 被 广泛 地 应 用 于 文本 挖掘 领域 。 
12.3.1 ”算法 描述 

标准 的 朴素 贝 叶 斯 分 类 算法 的 执行 过 程 如 下 : 

1) 获取 样本 文本 ， 将 样本 人 工分 类 整理 ， 并 进行 标记 。 

2) 对 每 个 类 别 的 样本 文本 进行 中 文 分 词 。 

3) 去 除 样本 文本 中 垃圾 词 条 。 


Д) 将 整理 后 词 条 合成 样本 文本 的 特征 组 ， 分 析 并 计算 词 条 频率 信息 。 例 如 : 假设 共有 3 个 类 别 的 文本 ， 词 条 i 在 类 别 A、B、C 中 出 现 的 次 数 分 别 为 COUNTIi(A)、COUNTIi(B)、COUNTI(C)， 每 个 类 别 的 
词 条 总 数 为 NORDCOUNT(A)、WORDCOUNT(B)、WORDCOUNT(C)， 那 么 根据 词 每 个 类 别 的 词 条 总 数 与 词 条 在 每 个 类 别 出 现 的 次 数 就 能 计算 词 条 频率 ， 计 算 方式 是 : 词语 在 每 个 类 别 出 现 的 次 数 除 以 该 


类 别 的 总 词语 数 。 
比如 ， 某 类 别 的 词 条 总 数 是 100 个 ， 而 词 条 “冬天 ”出 现 了 5 次 ， 那 么 “冬天 ”一 词 在 该 文件 中 的 词 频 就 是 0.05 (5/100) . 
5) 根据 词 条 频率 信息 ， 计 算 词 条 在 各 类 别 文 本 的 先 验 概率 。 词 条 i 的 各 类 别 先 验 概率 计算 公式 为 : 
Pi(A)=COUNTi(AMWORDCOUNT(A) 
Pi(B)=COUNTi(B)/WORDCOUNT(B) 
Pi(C)=COUNTi(C)/WORDCOUNT(O) 
6) 读 取 未 知 样本 ， 进 行 中 文 分 词 ， 并 去 除 垃圾 词 ， 然 后 形成 样本 特征 组 。 


Т) 将 未 知 样本 特征 词 条 的 先 验 概率 代入 朴素 贝 叶 斯 公式 计算 后 验算 概率 ， 计 算得 到 的 最 大 概率 的 所 属 类 别 即 为 文本 所 属 类 别 。 
12.3.2 Ж ЕЁ 


同一 条 词 条 在 不 同类 型 的 文本 中 出 现 的 频率 通常 是 不 一 样 的 ， 很 多 词 条 只 会 在 某 些 类 别 的 文本 中 出 现 ， 比 如 说 “微软 ”、“ 谷 歌 ”、“ 医 保 ”、“ 乔 布 斯 ”等 词 条 极 少 出 现在 战争 类 题材 的 文本 中 ， 
而 “黑莓 ”、“3G”、“ 手 机 ”、 "ВЕ" 等 词 极 少 出 现在 健康 类 题材 的 文本 中 。 词 条 先 验 概 率 计 算 通过 提取 不 同类 别 中 样本 的 词 条 ， 分 析 其 在 所 有 类 别 中 出 现 的 概率 ， 它 会 以 词 条 为 键 值 ， 生 成 词 条 先 验 
概率 哈 希 数组 (在 Python 中 称 为 字典 结构 ) ， 以 供 后 期 分 类 算法 使 用 。 


根据 朴素 贝 叶 斯 的 先 验 概率 计算 公式 来 看 ， 在 后 期 计算 中 ， 需 要 计算 词 条 先 验 概率 囚 乘 。 如 果 某 词 在 某 类 型 的 样本 中 从 来 没有 出 现 ， 其 概率 为 0%， 这 样 将 会 使 累 乘 结果 变 为 0， 算 法 变 得 毫 无 意义 。 在 计 
算 先 验 概率 后 ， 在 每 个 词 条 的 先 验 概率 基础 上 加 上 一 个 适当 的 较 小 的 概率 值 ， 防 止 票 乘 出 现 0。 此 外 ， 某 词 在 某 类 型 的 所 有 样本 中 未 出 现 ， 不 代表 该 词 不 会 出 现在 该 类 型 的 所 有 文本 中 ， 因 此 ， 这 个 较 小 概率 
值 非常 有 必要 加 入 先 验 概率 的 计算 中 。 


1233 ”最 大 后 验 概 率 


对 未 知 文本 分 类 时 ， 需 要 计算 后 验 概率 ， 对 于 在 未 知 文本 中 出 现 的 词 条 ， 提 取 其 在 先 验 概率 哈 希 数组 中 的 概率 值 。 然 后 分 别 计算 不 同类 型 哈 希 数组 中 出 现 的 词 条 的 先 验 概率 累 乘 ， 从 而 得 到 未 知 文本 属 
于 不 同类 型 的 后 验 概 率 ， 其 中 ， 最 大 概率 所 属 类 别 即 为 未 知 文本 所 属 类 别 |。 


1234 ”算法 实现 


这 里 分 别提 取 数 量 几乎 相同 的 新 闻 文 本 作为 样本 ， 这 些 样 本 属于 汽车 、 财 经 、 健 康 、 教 育 、 军 事 类 新 闻 ， 对 样本 进行 分 析 。 为 了 验证 效果 ， 最 后 使 用 未 在 样本 中 出 现 的 新 闻 正 文 链接 进行 测试 ， 分 析 该 
链接 指向 的 新 闻 所 属 类 别 。 


1. 新 闻 肥 取 


提取 新 闻 文 本 的 原理 与 搜索 引擎 相同 。 首 先 ， 通 过 类 似 代 虫 的 程序 对 新 闻 进 行 他 取 ， 分 析 新 闻 主 页 的 新 闻 正 文 链接 ; 接着 翁 取 新 闻 正 文 网 页 ， 清 理 HTML 标 记 ; 然后 形成 文本 样本 ， 为 提高 效率 ， 仪 在 
内 存 中 形成 文本 样本 ， 不 在 本 地 硬盘 保存 ; 最 后 ， 以 内 存 数据 为 基础 ， 进 行 下 一 步 分 析 。 相 关 代 码 如 下 : 
# 读 取 网 上 新 闻 搜 索 目 录 


txt class-[] 
myclassfl = open('ClassList.txt') 





以 在 每 个 


Ey 
myclass str = myclassfl.read() 
myclass str-unicode (myclass str, 'gbk') 
myclass | text-emyclass str.split() 
for ii in xrange(0, len (myclass ` text),2): 
princ T." 
txt class.append((myclass text[ii],myclass text[ii-*1])) 























finally: 
myclassfl.closeY() 
links-[] 
T2 XGURGESA, ERI 2143 
for ci in xrange(0, PEU ue e 
print u"Nnjejkss3t 6 m :$s" $ (txt class[ci][0],txt class[ci][1]) 
links.append([]) 
pattern = re.compile (r'(.*?)/Nd*N.shtml') 
purl-txt class[ci][1] 
page-urllib2.urlopen (purl 
soup = BeautifulSoup (page 
for link in soup.find all('a!'): 
mylink-link.get ('href') 
match = pattern.match (mylink) 
if match and mylink.find("hd")«0: 
basestr-e"http://www.chinanews.com" 
f mylink.find("chinanews.com")«0: 
mylink-basestrHmylink 
print mylink 
links [ci].append (mylink) 








— 
— 








— 
































L- 








2. 先 验 概 率 计 算 


提取 不 同类 别 中 样本 的 词 条 ， 分 析 其 在 所 有 类 别 中 出 现 的 概率 ， 生 成 以 词 条 为 键 值 的 先 验 概率 
条 的 先 验 概率 基础 上 加 上 一 个 适当 的 较 小 的 概率 值 ， 防 止 累 乘 出 现 0。 代 码 如 下 : 


# 词 条 在 每 个 样本 中 出 现 的 次 数 

basegl-1e-8 

wordybcount-(])] 

lbcount-np.zeros (len (ур txt)) 

# 整 理 计算 词 条 出 现 次 数 

for і in xrange(0,len(yb txt)): 

for j in xrange(0,len(yb txt[i])): 

for k in xrange(0,len(yb txt[i][j])): 
my word-yb txt[i][j][k].encode ('gbk') 
wordybcount.setdefault (my word,np.repeat(0,len(yb txt)).tolist()) 
wordybcount [my word] [1]+=1 
lbcount[i]4-1 ` 

# 计 算 词 条 先 验 概率 

print u"\n 计 算 词 条 概率 " 

ybgl=() 

for my word in wordybcount.keys(): 
ybgl.setdefault (ту word,np.repeat(0.,len(yb txt)).tolist()) 

for ybii in хгапде (0,1Іеп (ур txt)): 















































ybgl[my word][ ybii]-basegl*wordybcount [my word] [ybii]/float (lbcount[ybii]) 


PEIC- бу 


。 此 外 ， 根 据 朴 素 贝 叶 斯 的 先 验 概率 计算 公式 ， 在 后 


期 计算 中 ， 需 要 计算 词 条 先 验 概率 累 乘 ， 所 





后 验 概率 计算 


读 取 待 分 类 文本 的 先 验 概率 字典 变量 ， 提 取 每 


# 计 算 待 分 类 文本 后 验 概率 
print u" 计 算 待 分 类 文本 后 验 概率 " 
testgl=None 
wordgl-None 
ctestgl-np.repeat(l.,len(yb txt)) 
for myword in ftest seg list: 
f not(myword.strip() in f stop seg list) and len (myword.strip())»1 
myword-myword.encode ( ' gbk') 
for і in xrange(0,len(yb txt)): 
wordgl-ybgl.get (myword) 
if wordgl: 
f wordgl[i]«»0: 
testgl[i]*-wordgl[i] 
if np.min(testgl)«1e-50: 
testgl*-1e20 
f np. max (testgl)» >1е100: 
testgl/-float (1e30) 
































ГЕ 

















L- 

















H- 

















运行 程序 ， 读 取 网 页 http://www.chinanews.com/edu/2013/09-17/5296319.shtml 和 和 http://finance.chinanews.com/auto/2013/09-16/5290491.shtml, 
结果 如 下 : 
























































tp: //www.chinanews.com/edu/2013/09-17/5296319.shtml 














个 词 条 的 先 验 概率 值 ， 然 后 计算 不 同类 型 中 出 现 的 词 条 的 先 验 概 率 累 乘 ， 最 后 得 到 待 


h 
h 
http: //www.chinanews.com/edu/2013/09-17/5296319.shtmli&J A, xj .计算 待 分 类 文本 后 验 概率 
ht 
h 








ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/read 


分 类 文本 属于 不 同类 型 的 后 验 概率 。 


以 这 两 个 网 页 为 测试 对 象 进行 分 类 


代码 如 下 : 


Book?path=/openresources/teach ek 



































ttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readl 











Book?path-/openresources/teach ek 








近年 来 ， 基 于 朴素 贝 叶 斯 


:教育 计算 待 分 类 文本 后 验 概率 

+ finance.chinanews.com/auto/2013/09-16/5290491.shtml 

从 以 上 执行 结果 看 ， 两 个 新 闻 链 接 被 成 功 地 划分 到 教育 类 新 闻 和 汽车 类 新 闻 ， 分 类 效果 良好 。 

本 例 中 ， 样 本 数量 较 小 ， 在 实际 应 用 中 ， 每 个 类 别 应 准备 更 多 的 样本 文本 。 通 常 来 说 ， 一 个 分 类 效果 较 好 的 朴素 贝 叶 斯 算法 ， 其 每 个 类 别 的 样本 数量 大 致 有 2000~ 10000 个 。 
类 的 改进 算法 越 来 越 多 ， 最 普遍 的 是 在 算法 中 加 入 权重 的 影响 ， 针 对 某 些 关键 词 或 中 心 词 加 上 权重 ， 这 种 方法 法 被 称 为 加 权 朴 素 贝 叶 斯 算法 。 

关于 加 权 朴 素 贝 叶 斯 算法 的 更 多 细节 ， 可 以 查看 在 《厦门 大 学 学 报 : 自然 科学 版 》2012 年 第 4 期 上 刊登 的 饶 丽 丽 等 的 文章 《基于 特征 相关 的 改进 加 权 朴 素 贝 叶 斯 分 类 


(http://scholar.google.com.hk/schhphl=zh-CN) 中 以 “加 权 朴素 贝 叶 斯 分 类 算法 ”为 关键 字 进 行 


以 下 是 完整 的 Python 代码 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code :myhaspl(qq. com 
112-5.py 

#bayes 文 本 分 类 

# 本 程序 仅 做 机 器 学 习 研 究 

# 本 程序 对 新 闻 疏 取 的 工作 原理 与 搜索 引擎 相同 ， 通 
# 直 接 搜索 新 闻 ， 计 和 工 词 条 概率 

import numpy as np 

import jieba 

import urllib2 

from bs4 import BeautifulSoup 
import re 

# 读 取 网 上 新 闻 搜索 目录 

txt class-[] 

myclassfl = open('ClassList.txt') 





过 分 析 链 接 


Ё С с 























搜索 。 


算法 》， 也 可 以 在 Google 学 术 搜 索 


Ey 


myclass str 
myclass str-unicode (myclass s! 
text-myclass str.split 
for ii in xrange(0,len(myclass text),2): 





myclass ! 


pri 





finally: 
myclass 
links-[] 








links.a 
pattern 
purl-tx 
page-ur 
soup = 
for lin 
myl 
mat 
i 

















nt "Ç : "т 





fl.close() 


Жж Д, ERI $£ 244 
for ci in xrange(0,len(txt class)): 
print u"WMn/feJR$s XE W] m : Ss" 


ppend([]) 


t class[ci] 


— 


1] 








BeautifulSo 
k in soup.f 











ind al 


llib2.urlopen (purl 
FulSoup (page 


myclassfl.read() 
cr, 'gbk') 





О. 


Q- 


о 








іпк=1іпк.де 


() 


re.compile (r' (.*?)/\d+\.shtml') 


| all('a'): 
c('href') 


ch = pattern.match (mylink) 








basestr-"h 
if 


£ my] 














mylink-basestr4 





print mylink 





f match and mylink.find("hd")«0: 
tp://www.chinanews.com" 
ink.find("chinanews.com")«0: 
Hnylink 


links [ci].append (mylink) 


# 提 取 正 文 内 容 


ybtxt= 





-[] 
print u"\n 提 取 正 文 内 容 " 





ybtxt .a 


print ". 





for myp 





my 


zw star 


las 
ZW 





if 


page con 
page con 
page con 





H- 


ррепа ([1) 


"т 
ГА 


age in links[ci]: 


try: 


for ci in xrange(0,len(txt class)): 


my page-urllib2.urlopen (mypage) 
except: 


continue 

















txt=my tt 


* ES-U" ER" 


u' 【编辑 ' 
u' 标 签 ' 
t-my ` 


fel- 
fe2- 











.find (ту і 


' Soup = BeautifulSoup (ту раде, і 
ttemy Soup .get text (" |", strip-True) 





[ 


t Ехі=ту txt 
end-last 


zw end«0: 











zw Start 
find(my 1 





£s) +8 
:len(my txt)] 
fel) 


zw end-last txt.find(my fe2) 











cen Lx 





t=my ` 








ZW S 





Car 





cen 
cen 














t-page con 
t-page con 


cen 
cen 














len(page conten 
try: 


print my soup.ti 
page content-my soup. i 





except: 
prin 

finally: 
prin! 
ybtxi 





n, 








# 分 析 正 文 内 容 


# 停 用 词 字典 


try: 


print u"\n 分 





сор ` 





сех 








f stop = open('stopwords.txt 


strip 


.repl 
.repl 





() ) >0: 








"-done." 
[сі] . append (page content) 


) 


f stop.read( ) 


tle.s 


cring.encode( 





lace(r' acK((aid:1807,1 
lace(u'1807: 新 闻 通 发 页 大 画 !y 11) .replace (u' 标 签 : ','").replace(u' if 


txt class.append((myclass text[ii],myclass text[ii+1])) 


(txt class[ci][0],txt class[ci][1]) 


From encoding-"gb2312") 


t:zw start*zw end] 








'gb2312') 


title.string-4page content 








ttp://www.hzcourse.com/resource/readl 











fina] 











stop. 





top 











| txt-[] 





yb txt. 
for cj 





my 














top ` 


| Seg lis 
提取 正文 词 条 
t u"\n 提 取 正 文 词 条 http://www.hzcourse.com/resource/read 





text-unicode(f s 


close( ) 





top text,'utf 








append([]) 

in xrange (0,len 
cxt[ci].append( 
r — ybtxt[ci] 





( 
[ 
[ 








Lx 








i 


' txt-jieba.cut (my . 
for myword in my txt: 
f not(myword.strip() in 


ci in xrange (0,len(ybtxt)): 


] 


tr) 





| 
J 
S 


ybtxt [c 
] 
C 





f stop text.split('WMn') 








1])): 








yb txt[ci][cj].appenda (myword) 
print ".", 

# 词 条 在 每 个 样本 中 出 现 的 次 数 

basegl-1e-10 

wordybcount-(]) 





lbcount-np.zeros (len (ур txt)) 
# 整 理 计算 词 条 出 现 次 数 








for i in xrange(0,len(yb txt)): 
for j in xrange(0,len(yb txt[i])): 
for k in xrange(0,len(yb txt[i][j])): 
my word-yb txt[i][j][k].encode ('gbk') 








wordybcoun 





lbcount [i]+=1 


# 计 算 词 条 先 验 概率 
print u"\n 计 算 词 条 概率 " 


ybgl={} 





ybgl.setdei 











t.setdefaul 
wordybcount [my мога] [1]+= 


1 


for my word in wordybcount.keys () : 
fault (my word,np.repeat(0.,len(yb txt)).tolist()) 
for ybii in xrange (0, len (ур txt)): 


f stop seg list) and len (myword.strip())»1: 





t(my word,np.repeat(0,len(yb txt)).tolist()) 








ybgl[my word] [ybii]-basegl4*wordybcount [my word] [ybii]/float (lbcount[ybii]) 


























































































































tp://www.chinanews.com/edu/2013/09-17/5296319.shtml') 


















































print "s'y 
# 读 取 待 分 类 文本 
print u"\n 读 取 待 分 类 文本 " 
Ftestlinks-[] 
Ftestlinks.append(r'ht 
Ftestlinks.append (r'http://1 
For mypage in ftestlinks: 
my page-urllib2.urlopen (mypage) 
my soup = BeautifulSoup (my page, from encoding- 
my tt=my soup.get text("|", strip-True) 
my txt=my tt 
my fs-u'iEx|' 
my fel-u' 【编辑 ' 
my fe2-u' d ' 
zw start=my txt.find(my #ѕ) +8 
last txt=my txt[zw start:len(my txt) ] 
zw end-last txt.find(my fel) 
if zw end«0: Е 
zw end-last хі. Ғіпа (ту fe2) 
раде contentemy txt[zw start:zw startt*zw епа] 
page content-page content.replace(r' acK((aid: 
page content-page content.replace 
replace (u' ifie ', '') .replace (u' 正 文 Start 编 辑 姓 名 star 
page content=my soup.title.string+page content 











print u"$s 读 取 成 功 ."%mypage 


# 计 算 





待 分 类 文本 后 验 概率 


print u" 计 算 待 分 类 文本 后 验 概率 " 





Les 


tgl=None 
wordgl-None 

















tes 
1 


tgl 





f len (раде con 











for myword in 


пр.гереаї (1.,len (ур txt 
tent.strip())>0: 
ftest seg list = jieba.cut(page content) 








ftes 








— 


) 





t seg list: 


myword-myword.encode ('gbk') 








if not (myword.s! 


crip() 





in f stop seg li 








for і in xrange(0,len(yb txt)): 


(0'1807: 新 闻 通 发 页 X m','').replace(u' 2: 
tt 编辑 姓名 ','') replace (u' 正 文 start','') 


Finance.chinanews.com/auto/2013/09-16/5290491.shtml') 


"gb2312") 





1807, format:0,mode:1,gid:1,serv-erbaseurl:"me.a! 





“Ух 


st) and len (myword.strip())?2: 


Book?path-/openresources/teach ebook/uncompressed/15753/0l 











Format:0,mode:1,gid:1,serverbaseurl:"me.afp.chinanews.com/"]);','').replace('|','').replace (r'(aid:1805, for-mat :0,moc 


'").replace (u' 正 文 Start 编 辑 姓 名 start 编 辑 姓 名 ','') .replace (u' 正 文 Start',"' 


BPS/Text/..http://www.hzcourse.com/resource/readBook?path= 


I 

















ЈЕ X A бр: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..." 





Book?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..." 








fp.chinanews.com/"]);','').replace('|','').replace (r'íaid:1805, format:0,mode:1, 





wordgl-ybgl.get (myword) 

if wordgl: 

if wordgl[i]«»0: 
testgl[i]*-wordgl[i] 

if np.min(testgl)«1e-100: 

testgl*-1e30 

if np.max(testgl)»1e100: 

testgl/-float (1e30) 






























































# 计 算 最 大 归属 概率 
maxgl-0. 
mychoice-0 
for ti in xrange(0,len(yb txt)): 
if testgl[ti]»maxgl: 
maxgl-testgl[ti] 
mychoice-ti 
print "\п\п%з\п:%з"% (mypage,txt class [mychoice] [0]) 


























124 ”自然 语言 处 理 


自然 语言 处 理 (NLP) 是 计算 机 科学 领域 与 人 工 智 能 领域 中 的 一 个 重要 方向 ， 是 一 门 融 语言 学 、 计 算 机 科学 、 数 学 于 一 体 的 学 科 ， 是 计算 机 科学 、 人 工 智 能 、 语 言 学 研究 计算 机 和 人 类 (BAR) 语言 之 
间 的 相互 作用 的 工具 。 达 到 人 类 水 平 的 自然 语言 处 理 ， 是 一 个 人 工 智 能 的 完全 问题 ，NLP 研 究 能 实现 人 与 计算 机 之 间 用 自然 语言 进行 有 效 通信 的 各 种 理论 和 方法 ， 相 当 于 解决 中 央 的 人 工 智能 问题 ， 使 计算 
机 成 为 和 人 一 样 聪明 或 强大 的 人 工 智能 。 因 此 NLP 的 未 来 也 会 密切 结合 人 工 智能 的 发 展 而 发 展 。 

124.1 NLTK(S fT 


NLTK 是 一 个 用 来 完成 NLP 的 Python 处 理 包 。NLTK 致 力 于 打造 使 用 Python 程序 的 人 类 语言 工作 平台 ， 它 提供 了 易于 使 用 的 接口 、 大 量 的 英文 语料库 和 词汇 资源 ， 连 同一 套 文 本 处 理 库 的 分 类 、 标 记 、 
堵塞 、 标 注 、 句 法 分 析 、 语 义 推理 、 工 业 强 度 的 NLP 库 包 装 及 活跃 的 论坛 ， 可 用 于 Windows、Mac OS X、Linux 等 操作 系统 。 


更 为 重要 的 是 : NLTK 是 一 个 免费 的 、 开 源 的 、 社 区 驱动 的 项 目 。 
此 外 ，NLTK 虽 然 支持 unicode 编 码 的 文本 (中 文 可 采用 unicode 编 码 ， 通 常 为 utf-8) ， 但 它 是 为 处 理 英 文 文本 而 生 的 ， 因 此 NLTK 对 英文 的 支持 比 中 文 更 好 。 鉴 于 上 述 原因 ， 在 实践 中 ， 可 结合 jieba 中 
文 分 词组 件 来 完成 NLP 的 相关 工作 。 


1242 ”NLTK 与 jieba 的 配置 
1.NLTK 的 安装 与 配置 
首先 打开 NLTK 的 官网 http://www.nltk.org/， 下 载 相关 平台 的 安装 包 并 安装 好 ， 然 后 在 Python 交 互 解释 器 下 执行 下 面 的 语句 : 


>>> import nltk 
>>> nltk.downloadY() 


最 后 ， 将 出 现 NLTK 包 的 下 载 界 面 ， 选 择 下 载 目 录 后 ， 按 Download 键 (如 图 12-4 所 示 ) 。 下 载 完 毕 后 ， 在 Python 的 安装 目录 下 新 建 nltk_data 文 件 夹 ， 将 下 载 的 文件 拷 入 其 中 。 以 WinPython 为 例 ， 笔 
者 的 WinPython 安 装 目 录 如 下 : 


“ë NLTK Downloader 
File View Sort Help 


Collections 
Identifier Name Status 
all All packages n/a partial 


All the corpora | partial 
Everything used in the NLTK Book partial 


all-corpora 


book 








Server Index http: / /www.nltk.org/nltk data/ 
Download Directory: E: \п1_ kdownload 





8124 NLTK&, TX 
ENWinPython-32bit-2.7.10.3Wpython-2.7.10Wnltk data 
将 nltk_data 拷 入 其 中 后 ， 效 果 如 图 12-5 所 示 。 


上 述 步骤 全 部 完成 后 ， 可 在 Python 交互 解释 器 下 输入 如 下 代码 ， 进 行 测试 : 
此 电脑 > datal(E) > WinPython-32bit-2.7.10.3 > python-2.7.10 > nltk data 
ER ЕНИН 


В chunkers 2016/1/26 17:2В 
Id corpora 2016/1/26 17:31 
В grammars 2016/1/26 17:31 


Id help 2016/1/26 17:31 
Е models 2016/1/26 17:31 
Р stemmers 2016/1/26 17:31 
Р taggers 2016/1/26 17:31 
[ tokenizers 2016/1/26 17:31 





12-5 nltk даа Jl 





>>> import nltk 

>>> sentence - """At eight o'clock on Thursday mornin 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... http://www.hzcourse.com/resource/readBook?path-/openresources/teach 
>>> tokens = nltk.word tokenize (sentence) 

>>> tokens = 





























['At', 'eight', 
>>> 以 空格 分 隔 的 中 
>>> mystr=" 你 好 
>>> 
>>> 





tokens 


['\xc4\xfa\xba\xc3', 





>>> 


"o'clock", 


X 
世界 " 


"On", 


2jieba 中 文 分 词组 件 的 安装 与 配置 


1243 ”中 文 分 


首先 ， 下 载 jieba 组 件 并 解压 缩 。 接 着 ， 打 开 控 制 台 





E:Njieba-0.38»dir 
http: //www.hzcourse.com/resource/readl 


tokens = nltk.word tokenize (mystr) 


'NxcaNxcONxXbaNxe7 ! ] 


'"Thursday', 


'morning', 


E:WinPython-32bit-2.7.10.3NMpython-2.7.10»cd Е:\јіера-0.38 














2016/01/27 08:27 



































然后 ， 观 察 上 述 目录 








http://www.hzco 
http://www.hzco 
byte-compiling 
running install 











E:Njieba-0.38»python se 


«DIR» 
«DIR» 
«DIR» 








«DIR» 


tup.py install 
urse.com/resource/readi 





urse.com/resource/readi 

















. egg info 





Writing E: WinPython-32bit-2.7.10.3WNpython-2.7.10NLibNsite-packages jieba-0.38-py2.7.egg-info 





> 词 并 标注 词性 


NLTK 和 jieba 安 装配 置 完 毕 





fencoding-utf-8 











f--coding:utf-8-- 
#code by myhaspl 

















$2384, p 
412-6. py 
from Future — import unicode literals 








import nltk 
import sys 


Sys.path.append ("http: //www.hzcourse.com/resource/readi 


import jieba 








from jieba impo 


rt posseg 





def 





分 词 + 词性 
utstr = po 
result-"" 


for word, 


== Q 














Q 





utstrpos (tx 





— 





sseg.cut (txt) 

















Flag in cutstr: 





result-4-word-t"/"4 


return resuli 














def cutstring (tx 


12778 








E): 





flag+' 


cutstr = jieba.cut (txt) 


result=" ".join (cuts 
return result 





# 读 取 文 件 








txtfileobject = 
textstr-"" 











tr) 


open ('nltestl.txt') 



























































leobject.read( ) 





， 输 入 以 下 命令 来 查看 目录 的 结构 : 





http: //www.hzcourse.com/resource/readi 


jieba 


2617 PKG-INFO 
2571 setup.py 





test 
5188 字 节 


69 317 844 992 可 用 字 节 


结构 ， 可 看 到 目录 下 有 setup.py 文 件 ， 执 行 这 个 文件 进行 安装 。 




















'http://www.hzcourse.com/resource/read 














Book?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

















Book?path-/openresources/teach ebook/uncompressed/1 
Book?path-/openresources/teach ebook/uncompressed/1 
E: NWinPython-32bit-2.7.10.3Npython-2.7.10NLibNsite-packages VjiebaNV main — 


可 测试 一 个 中 文 分 词 和 词性 标注 的 程序 (如 12-6.py 所 示 ) 。 








for word in posstr.split()] 




















CEV: 
filestr = txtfi 
finally: 
txtfileobject.close( ) 
# 中 文 分 词 并 标注 词性 
posstr=cutstrpos (filestr) 
strtag-[nltk. tag.str2tuple (мога) 
for word,tag in strtag: 
print word,"/",tag,"|", 
# 进 入 语料库 
cutstr-cutstring(filestr) 











mytext-nltk.text.Text (cutstr) 


# 在 该 语料库 中 查找 包括 "人 "的 语句 


print (mytext.concordance (u" 人 ")) 














观察 程序 12-6.py 可 发 现 ， 


(1) 纯 中 文 分 词 


cutstring£& 








def cutstring (txt): 











mi уе -一 


它 演示 


2 


函数 负责 文本 的 中 文 分 词 ， 


12738 

cutstr = jieba.cut (txt) 
result-" ".join(cutstr) 
return result 


(2) 中 文 分 


cutstrpos 


词 并 标注 词性 








def cutstrpos (txt): 


# 分 词 + 词 性 
cutstr = po 

















sseg.cut (txt) 




















result="" 

for word, flag in cutstr: 
result+=word+"/"+flag+' 

return result 








了 以 下 两 种 分 


需要 使 用 “/” 


3875 x. 


ЖУ Еҥ Rgjiebat RBS cute 5р, 


分 割 符 (也 可 使 用 其 他 非 空格 的 分 割 字 


分 割 的 词 使 用 空格 分 离 


函数 负责 文本 的 中 文 分 词 ， 并 标注 词性 ， 通 过 直接 调用 posseg 模 块 的 cut 义 数 来 完成 ， 该 cut 国 数 将 返 


空格 分 离 的 方式 进行 标注 的 同时 ， 符 ) 将 词 与 词性 进 和 


此 外 ，Concordance 国 数 可 显示 指定 的 词 在 某 语料库 中 的 出 现 情况 ， 并 显示 一 些 上 下 文 。 


程序 12-6.py 的 运行 效果 如 下 : 


据 /P| 国外 / 


S | 媒体 报道 N | 


Q/X 


XH / NS | 科学 家 /NI 


近日 /了 TI 


获得 / V| 


5753/0EBPS/Text/. 
5753/0EBPS/Text/. 
‚ру to main ` 























Book?path-/openresources/teach ebook/uncompressed/15753/0 


的 方式 进行 


Т / UL | 2800 / M | 


.pyc 


"m 


EBPS/Text/.. 











万 美元 / M | 


Book?path-/openresources/teach ebook/uncompressed/15753/0E 


标注 ， 代 码 上 请 断 如 下 所 示 : 


( / XI 


x 











Book?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 











回 一 个 列表 ， 列 表 中 是 由 形 如 " ( 词 ， 词 性 ) ”格式 的 元 组 组 成 ， 
于 分离 。cutstrpos 函 数 代码 片断 如 下 所 示 : 


BPS/Text/.. 


, 


'Arthur'!, 


因此 ， 分 割 的 词 使 用 


2⁄2 / VN | 1.84 / M| dL / MI ARR / NI) / 








00 万 美元 ( а ~ 1.84 а AR mf ) 的 研究 Ud Е 用 T http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/: 





观察 上 述 运行 效果 ， 第 一 段 是 中 文 分 词 与 词性 标注 的 结果 ， 第 二 段 是 将 文本 加 入 NLTK 语 料 库 ， 并 在 语料库 中 查找 含有 “人 ”的 语句 的 结果 。 
Qi NLTK 的 语料库 对 英文 的 支持 非常 好 ， 但 对 中 文 的 支持 有 限 ， 因 此 ， 如 果 使 用 NLTK 语 料 库 对 中 文 进行 处 理 ， 请 慎重 使 用 ， 反 复 调 试 。 
12.444 词 特征 指标 分 析 
1. 词 频 统 计 


程序 12-7.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 进行 词 频 统计 。 





f--coding:utf-8-- 
#code by myhaspl 





























# 词 频 分 析 

#12-7 .py 

from future import unicode literals 
from future import division 

import nltk ` 


import sys 
Sys.path.append ("http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 
import jieba 


















































def cutstring (txt): 
1258 
cutstr = jieba.cut (txt) 
result-" ".join(cutstr) 
return result 
# 读 取 文 件 
txtfileobject = open('nltestl.txt','r') 


try: 





=: 


filestr = txtfileobject.read( ) 


finally: 
txtfileobject.close( ) 
cutstr-cutstring(filestr) 
tokenstr-nltk.word tokenize (cutstr) 
# 全 文 总 词 数 

print u" 词 总 数 :"， 
print len (tokenstr) 
# 共 出 现 多 少 词 
print u" 共 出 现 词 数 :"， 

print len(set (tokenstr)) 

# 词 汇 条 目 排序 表 

print u" 词 汇 条 目 排序 表 " 

for word in sorted(set(tokenstr)): 
print word, 

print 
# 每 个 词 的 平均 使 用 次 数 

print u" 每 个 词 的 平均 使 用 次 数 :"， 

print len (tokenstr) /Len(set (tokenstr)) 
# 统 计 词 频 
Fdistl-nltk.FreqDist (tokenstr) 
for key,val in sorted(fdistl.iteritems()): 
print key,val, 

print 
print u"http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/openresources/ 
print fqdist1l[u' 计 算 机 系统 '] 

# 统 计 出 现 最 多 的 前 5 个 词 

print 
print u"http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/ 
Fdistl-nltk.FreqDist (tokenstr) 

for key,val in sorted(fdistl.iteritems(),key-lambda x: (x[1],x[0]) , reverse-True)[:5]: 

print key,val 































































































































































































观察 程序 12-8.py， 该 程序 依次 执行 了 以 下 操作 : 
(1) 读 取 文件 


通过 调用 Python 的 open 函 数 来 打开 文件 ，read 函 数 来 读 取 文 件 ， 无 论 读 取 文 件 成 功 与 否 都 天 闭 文件 对 象 ， 代 码 片断 如 下 所 示 : 














txtfileobject = open('nltestl.txt','r') 





L- 





filestr = txtfileobject.read( ) 
































y: 
txtfileobject.close( ) 


(2) 中 文 分 词 


首先 ,调用 cutstring 遂 数 ， 从 而 使 用 jiaba 的 cut 函 数 完 成 中 文 分 词 ， 其 中 ， 每 个 词 都 用 空格 进行 分 割 ; 然后 ， 针 对 空格 分 割 的 分 词 结果 ， 调 用 NLTK 模 块 的 word_tokenize 函 数 进行 NLTK 方 式 的 二 次 分 


词 ， 最 终生 成 NLTK 模 块 要 求 的 中 文 分 词 格 式 ， 即 : 以 中 文 词 为 元 素 ， 组 成 词语 列表 。 代 码 片 断 如 下 所 示 : 


~ 








cutstr=cutstring (filestr) 
tokenstr-nltk.word tokenize (cutstr) 





Qi NLTK 模 块 的 分 词 是 针对 英文 分 词 而 设计 的 ， 而 英文 分 词 相对 比较 简单 ， 通 常 句子 中 的 英语 单词 是 用 空格 来 分 隔 的 ， 因 此 ， 使 用 NLTK 完 成 中 文 分 词 ， 需 要 模拟 英文 分 词 的 方式 来 进行 ， 即 : 


先 使 用 空格 将 中 文 词组 分 割 形成 字符 事后 ， 再 送 往 NLTK 分 词 函 数 做 进一步 处 理 。 
(3) 统计 词 出 现 的 次 数 


首先 ， 通 过 调用 len 函 数 ， 对 NLTK 分 词 形成 的 词 列表 中 的 元 素 总 数 〈( 即 词 的 总 数量 ) 进行 统计 ;然后 ， 调 用 set 函 数 将 NLTK 分 词 结果 转换 成 集合 ， 统 计 集 合 中 出 现 的 词 数 。 代 码 片 断 如 下 所 示 : 


# 全 文 总 词 数 

print u" 词 总 数 :"， 

print len (tokenstr) 

# 共 出 现 多 少 词 

print u" 共 出 现 词 数 :"， 
print len(set (tokenstr)) 











(4) 统计 词 频 


首先 ， 调 用 NLTK 模 块 的 FreqDist 国 数 ， 生 成 NLTK 词 频 字典 对 象 ， 该 字典 的 键 为 词 ， 值 为 该 词 出 现 的 次 数 ;然后 ， 调 用 该 词 频 对 象 的 iteritems( 返 回 迭 代 对 象 ， 遍 历 所 有 的 词 。 代 码 片断 如 下 所 示 : 


# 统 计 词 频 

fdistl-nltk.FreqDist (tokenstr) 

for key,val in sorted(fdistl.iteritems()): 
print key,val,print u" 共 出 现 词 数 :"， 

















(5) 按 词 频 大 小 分 析 中 文 词 


首先 ， 生 成 NLTK 词 频 字 典 ; 然后， 依据 字典 的 值 ( 即 词 频 ) 对 字典 的 键 〈 即 中 文 词 语 ) 进行 从 大 到 小 的 排序 。 下 面 的 代码 片断 演示 的 是 分 析出 现 最 多 的 前 5 个 词 : 





fdistl-nltk.FreqDist (tokenstr) 
for key,val in sorted(fdistl.iteritems(),key-lambda x: (x[1],x[0]), reverse-True)[:5]: 
print key,val 

















程序 12-7.py 的 运行 效果 如 下 : 


词 总 数 : 386 共 出 现 词 数 : 216 词 汇 条 目 排序 表 

1.84 2800 CBS Cox David IARPA SEAS : . 。 一 个 一 半 一 款 一 点 一 项 万 美元 上 WA 与 东西 中 中 心 为 了 为 何 之 后 之 间 也 了 http://www.hzcourse.com/resource/readBook?path=/openresourc 
1.84 1 28001 CBS 1 Сох 1 David 1 IARPA 1 SEAS 2 : 1. 7 。13 一 个 2 一 半 1 一 款 2 一 点 1 一 项 1 万 美元 1] 上 1 不 然 1 与 5 东西 1 中 1 中心 1 为 7 1 为 何 1 之 后 1 之 间 2 也 1 了 6 于 
ttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/openresources/teach er 





































































































h 
© 
h 








ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ek 





观察 上 述 12-7.py 的 运行 结果 ， 程 序 依次 输出 了 词 总 数 、 共 出 现 词 数 、 词 汇 条 目 排序 表 、 每 个 词 的 平均 使 用 次 数 、“ 计 算 机 系统 ”这 个 词 出 现 的 次 数 、 出 现 最 多 的 前 5 个 词 。 
2. 词 频 与 长 词 分 析 


程序 12-8.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 进行 词 频 统 计 : 





f--coding:utf-8-- 
fcode by myhaspl 
































#12-8.ру 

from Future import unicode literals 
from future import division 

import nltk 


import sys 
sys.path.append ("http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 
import jieba 















































def cutstring (txt): 
128 
cutstr = jieba.cut (txt) 
result-" ".join(cutstr) 
return result 
# 读 取 文 件 
txtfileobject = open('nltest2.txt','r') 
try: 





гы, 


filestr = txtfileobject.read( ) 


finally: 
tcxtfileobject.close( ) 
cutstr-cutstring(filestr) 
tokenstr-nltk.word tokenize (cutstr) 
Fdistl-nltk.FreqDist (tokenstr) 

只 出 现 了 1 次 的 低频 词 

print "----R JL T 12k 89 4 38 38] -———— " 
for word in fdistl.hapaxes(): 
print word, 







































































# 找 出 文本 中 的 长 记 
print 
print n---- XAR 的 长 词 —— " 

















for word in [w for w in set(tokenstr) if len(w)»3]: 
print word, 

# 找 出 文本 中 出 现 了 2 次 以 上 的 长 词 

print 

print "---- 文 本 中 出 现 了 2 次 以 上 的 长 词 =---- " 

for word in [w for w in set(tokenstr) if len(w)>3 and fdistl[w]»2]: 

print word, 


























程序 12-8.py 中 有 以 下 几 个 关键 知识 点 。 
(1) 低频 词 


NLTK 将 只 出 现 过 1 次 的 词 作为 低频 词 ， 可 通过 调用 hapaxes 函 数 分析 低 频 词 。 如 下 面 的 代码 片断 所 示 : 





# 只 出 现 了 1 次 的 低频 词 
print "---- 只 出 现 了 1 次 的 低频 词 ----- 
for word in fdistl.hapaxes(): 
print word, 














(2) 长 词 


可 将 长 度 超过 3 的 中 文 词 视 为 长 词 ， 如 下 面 的 代码 片断 所 示 ， 首 先 通过 len 函 数 找到 文本 中 的 长 词 ， 然 后 结合 词 频 字 典 的 值 来 寻找 出 现 了 2 次 以 上 的 长 词 。 








# 找 出 文本 中 的 长 记 
print 
print "n----X ЖР 19 &isg----- " 

















for word in [w for w in set(tokenstr) if len(w)»3]: 
print word, 

# 找 出 文本 中 出 现 了 2 次 以 上 的 长 词 

print 

print "---- 文 本 中 出 现 了 2 次 以 上 的 长 词 =---- " 

for word in [w for w in set(tokenstr) if len(w)>3 and fdistl[w]»2]: 

print word, 


























程序 12-8.py 的 输出 结果 如 下 : 








---- 只 出 现 了 1 次 的 低频 词 =---- 无 意识 加 快 一 方面 特性 电视 观众 窗 圣 哲 神经 科学 尽 可 能 团队 EF 繁重 经 干预 显然 Thà 关系 中 带 正确 http://www.hzcourse.com/resource/readBook?path-/openre 
---- K 8 Ki----- 大 脑 皮 层 电视 观众 神经 科学 另 一 方面 与 此 同时 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http: / /www 


---- 文 本 中 出 现 了 2 次 以 上 的 长 词 ----- 持 续 时 间 


3. 搭 配 词 分 析 


程序 12-9.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 进行 搭配 词 分 析 : 








f--coding:utf-8-- 
fcode by myhaspl 





























#12-9.ру 

from Future — import unicode literals 
from future import division 

import nltk 





import sys 
Sys.path.append ("http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 
import jieba 





























def cutstring (txt): 
# 分 词 
cutstr = jieba.cut (txt) 


result-" ".join(cuts 
curn result 





rei 
# 读 取 文件 


txtfi 








tr) 





nli 








try: 


eobject = open ('п 


test2.txt','r') 





filestr = tx 
finally: 
txtfileobjec 

















ы, 


leobject.read( ) 





close( ) 





cutstr-cutstring 


La. 








( 


lestr) 














tokenstr-nl 
Fdistl=n] 








tk.word ` 
tk.FreqDist 


tokenize (cutstr) 
(tokenstr) 











bigramcol 


locenltk.colloca 











tions 





print "---- 出 现 最 
Fdist] 








-bigramcolloc.word і 


.BigramCollocationFinder. 


频繁 的 前 10 








for key,val 


in sorted( 





fdist1 





.iteritems () 





print "---- 只 出 现 
fdist1 =bigramco] 








loc.word 


print key,":",val 


了 1 次 的 低频 词 
fd 

















for w in fdist] 





print w.encode ("uti 


# 找 出 文本 中 的 搭配 词 
print 
print "----4X Н Ж 
bigramwords-nltk 


.hapaxes () : 
себ"); 





连 搭配 词 
.bigrams (tokenstr) 











For fw,sw in set 
print fw," " 
print 
print 
for 








"---- 双 连 拱 


w, C 





(bigramwords): 


‚ SW, "т | т; 


配 词 及 词 频 ----- j 





fd.iteritems () 





fw, Sw=w 
print fw, 


"T "T 
prin 
trigramcol]l 


in sorted (bigramcolloc.ngram _ 
, SW, 


oc-nltk.collocations.TrigramColloca 


Wm с 


‚"||", 


‚ кеу=1апраа x: (x[1],x[0]) 


tionFinder. 


from words (tokenstr) 


,reverse-True)[:10]: 





‚ кеу=1апраа x: (x[1],x[0]) 








print "---- 2 6 
For fw,sw,tw in 











配 词 
trigramcolloc.ngram fd: 














print 
print 





fw.encode ("utf 








-8")," ",sw.encode ("utf-8"), 


程序 1 2-9. py 中 有 以 下 几 个 关键 知识 识 点 。 


(1) 双 连 搭配 词 


将 两 个 经 常 在 一 起 


搭配 词 。 代 码 片 断 如 下 


bigramwords-nltk 


使 用 的 词语 合 
所 示 : 


并 为 


.bigrams (tokenstr) 














for fw,sw in set 
print fw," " 








(2) 三 连 搭配 词 


常 在 一 起 


RIT 


(bigramwords): 


r SW, ý | "> 


三 连 


使 用 的 词语 合并 为 











连 搭配 词 ， 比 如 : 


from words ( 


;tw.encode ("u 





























trigramcolloc-nltk.collocations.TrigramCollocationFinder.from words( 
For fw,sw,tw іп trigramcolloc.ngram fd: 
print fw.encode ("utf-8")," ",sw.encode ("utf-8")," ",tw.encode ("u 
print 





(3) 词 频 








HN 


' 发 现 ' 、 


,reverse-True): 


tokenstr) 











Ге", 


LIEU 
, 


* 


通过 


" 
` 


“ 扫 摘 ”这 两 个 


“任何 ”、 


tokenstr) 











cf-8"), 


"ES 
, 


通过 调用 模块 nltk.collocations.BigramCollocationFinder 的 from_words 函 数 来 寻找 所 有 的 双 连 搭配 词 ， 并 统计 词 频 。 


其 中 ， 可 通 


bigramcolloc-2nltk.colloca 


前 过 word fd 方法 返回 单个 








tions.BigramCollocationFinder 


词 的 词 频 ， 代 码 片 断 如 下 所 示 : 





























.from words (tokenstr) 





[1],x[0]), 


print "---- Н JL CX € 89 81 10438] -———— 

Fdistl-bigramcolloc.word fd 

for key,val in sorted(fdistl.iteritems(),key-lambda х: (х 
print key, "т" ; val 

也 可 以 通过 iteritems 方 法 返回 双 连 搭配 词 的 词 频 ， 代 码 片断 如 下 所 示 : 


bigramcolloc-nlt 


k.collocations 








.BigramCollocationFinder. 











for w,c in sor 


ted (bigramcolloc.ngram | 





fd.iteritems() 





reverse-True): 
fw, Sw=w 
print fw, 








prin 


r SW, 


Wesen с 


„|“, 


程序 12-9.py 的 运行 结果 如 下 : 


























reverse-True)[:10]: 


from words (tokenstr) 
,key-lambda x: (х[1],х[01), 



































“异样 ”这 三 个 词 经 常 在 一 起 使 用 ， 可 合并 为 “发 现任 何 异样 ”的 词组 。 可 通 
mta ec nad cda ы 并 统计 词 频 。 代 码 片 断 如 下 所 示 : 




























































































常 在 一 起 使 用 ， 可 合并 为 “通过 扫描 ”的 词组 。 可 通过 调用 bigrams 函 数 来 寻找 所 有 的 双 连 


过 调用 模块 























---- 出 现 最 频繁 的 前 10 个 词 ----- 的 : 131, : 99。 : 64 在 : 30 大 脑 : 28 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 

---- 只 出 现 了 1 次 的 低频 词 -=---- 无 意识 | Jed | 一 方面 | 特性 | 电视 观众 | 窗 | 圣 哲 | 神经 科学 | 尽 可 能 | 团队 | ET | 繁重 | 经 | 干预 | 显然 http://www.hzcourse.com/resource/readBook?patk 

---- 找 出 双 连 搭配 词 ----- 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 

---- 双 连 搭配 词 及 词 频 ----- 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 

一 -三 连 搭 配 词 - 一 -一 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
观察 上 述 运 行 结果 ， 程 序 12-9.py 依 次 输出 了 出 现 最 频繁 的 前 10 个 词 、 只 出 现 了 1 次 的 低频 词 、 双 连 搭配 词 、 双 连 搭配 词 及 词 频 、 三 连 搭配 词 。 

бы 12.4 节 中 有 些 代 码 并 没有 对 标点 符号 做 任何 处 理 ， 比 如 12-9.py 没 有 对 标点 进行 过 滤 ， 读 者 可 参考 本 章 前 面 的 部 分 ， 将 标点 符号 作为 停 用 词 进 行 删除 处 理 。 但 有 一 点 必须 要 注意 : 标点 符号 并 非 


全 没有 意义 ， 在 NLP 过 


4. 词 详细 指标 分 析 


~ 


程序 12-10.py 演 示 


寸 程 的 初期 并 不 一 定 要 过 滤 标 点 符号 ， 例 如 


了 如 何 调用 NLTK 模 块 的 函数 进行 


不 同 指标 的 词 频 


КЕ X 


， 标 点 符号 可 以 


作为 词组 、 和 句子 甚至 口语 文本 分 割 的 标志 等 。 


分 析 、 某 词汇 指标 分 析 、 样 本 特征 分 析 、 频 率 分 析 等 。 





f--coding:utf-8-- 
#code by myhaspl 




















































































































#12-10.ру 
from Future import unicode literals 
from future import division 
import pylab 
import nltk 
import sys 
Sys.path.append ("http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 
import jieba 
def cutstring (txt): 

128 

cutstr = jieba.cut (txt) 

result-" ".join(cutstr) 

return result 
# 读 取 文件 
txtfileobject = open('test2.txt','r') 
try: 

filestr = txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 
cutstr-cutstring(filestr) 




















tokenstr-nltk.word tokenize (cutstr) 
Fdist-nltk.FreqDist (tokenstr) 
# 以 词 长 为 元 素 ， 计 算 不同 词 长 的 频率 
print "----}] 4 ----- " 
fFdistl-nltk.FreqDist ([len (w) 























for w in tokenstr]) 























for w,c in fdistl.items(): 
print W, "=>", б, "т | | un 

# 词 长 

print 

print "----}]K----- x 

print fdistl.keys() 

#78] 

print 

print g"---«N---" 

Fdist2-nltk.FreqDist (tokenstr) 








fdist2.items(): 


"| p 


wC in 
print w,"=>",c 
print 
print 
print 


un"--- 无 意识 出 现 的 次 ma" 
fdist2 [11 无 是 意 pe '] 
print B 经 学 家 出 现 的 ; 
print fdist2 "神经 学 这 "| 
RAE 
sample=cutstring (u" 据 悉 ， 这 辆 汽车 绰号 野兽 ， 
tokenstr-nltk.word tokenize (sample) 
Fdist3-nltk.FreqDist (tokenstr) 
print u"--- 美 国 出 现 的 次 数 ---" 
print fdist3[u" 美 国 "] 
print u"--- 样 本 总 数 -一 " 
print f t3.N() 
print un--- 数 值 最 大 的 样本 ---" 
print 1 t3.max() 
# 频 率 分 布 表 
fdist3.tabulate () 
# 频 率 分 布 图 
Fdist3.plot() 
井 前 10 个 高 频 词 的 累积 频率 分 布 图 


Fdist3.plot (10,cumulative-True) 





次 数 ---" 














野兽 很 可 能 于 2017 年 1 月 份 美国 第 45 任 总 统 就 职 时 使 有 用。 目前， 野兽 的 详细 规格 都 属于 绝密 信息 ， 但 恋 照 显示 野兽 采 

































































程序 1 2-10. py 中 有 以 下 几 个 关键 知识 识 点 。 


1) 以 词 长 作为 指标 进行 词 频 分 析 。 通 过 


fdistl=nltk.FreqDist([Llen (w) 
for w,c in fdistl.items(): 
print W, =>", e "T | | un 





for w in tokenstr]) 











2) 5 JE, 


JE y. 


分 布 。 调 用 tabulate 遂 数 输出 词 频 的 分 布 情况 ， 调 用 plot 函 数 绘制 词 频 分 布 图 和 累积 频率 分 布 图 。 代 码 如 下 所 示 : 


# 频 率 分 布 表 
fdist3.tabulate() 
E 
fdist3.plot () 

# 前 10 个 高 频 词 的 累积 频率 分 布 图 


Fdist3.plot (10,cumulative-True) 





























3) pylab 绘 图 的 中 文 乱码 处 理 。 通 过 指定 pylab 字 体 的 方式 可 避免 绘图 出 现 中 文 乱码 。 代 码 如 下 所 示 : 








pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 





程序 12-10.py 执 行 结果 如 下 : 


----di----- 


1 => 750 || 2 => 864 || 3 => 80 || 4 = 28 || 5 => 2 || 6 => 1 || 


--- 词 频 --- 要 => 2 || 
-一 -无 意识 出 现 的 次 数 一 - 
---# 8 国 出 现 的 次 数 -一 
一 -样本 总 数 一 


49 
--- 数 值 最 大 的 样本 --- 


经 学 家 出 现 的 次 数 --- 














5753/0EBPS/Text/. 








en 函数 取出 词 长 ， 以 词 长 为 元 素 形成 列表 ， 将 列表 作为 FreqDist 国 数 的 参数 ， 返 回 以 词 长 为 指标 的 词 频 字 


用 了 凯迪 拉克 的 最 新 护 栅 和 前 灯 设 计 。 


典 ， 代 码 如 下 所 示 : 














http: //www.hzcourse.com/resource/readBook?path-/openresources/ 








teach ebook/uncompressed/1 











http: //www.hzcourse.com/resource/readBook?path-/openresources/ 


此 外 ， 程 序 12-10.py 绘 制 了 如 图 12-6 所 示 的 词 频 率 分 布 图 。 


teach ebook/uncompressed/1 


“野兽 ”这 两 个 词 共 使 用 了 8 次 ，“,，"、 


观察 图 12-6， 上 面 的 曲线 为 累积 频率 分 布 曲线 ， 观 察 该 曲线 ，“，”、 
看 出 ，“ 显 示 ” 一 词 出 现 了 1 次 ，“ 的 ”一 词 出 现 了 2 次 ，“ 野 兽 ” 一 词 出 现 了 4 次 


Qi 累积 频率 (Cumulative Percentage) 是 指 ， 按 某 种 标志 对 数据 进 


有 时 需要 


观察 某 一 数值 以 下 或 某 一 数值 以 上 的 频率 之 和 ， 
xl1<x2<…<xm 是 不 重复 的 样本 值 ，m<n， 把 样本 值 小 于 等 于 某 个 样本 数据 xi 的 频率 累加 起 来 ， 











.http://www.hzcourse.com/resource/readl 














5753/OEBPS/Text/.. 





， 分 布 在 各 组 内 的 数据 个 数 称 为 频数 或 次 
叫 作 累 积 频率 ， 或 称 为 对 频率 的 累计 。 从 变量 值 小 的 一 方向 变量 值 大 的 一 方 累加 ， 
就 可 得 到 小 于 等 于 的 累积 频率 。 





tp://www.hzcourse.com/resource/readl 


Book?pa 
Book?pa 











th-/openresources/ 





大 脑 皮层 => 2 || 一 切 = 3 || 无 意识 = 1 || 加 快 => 1 || 一 方面 => 1 || 通过 => 2 || 特性 => 1 || http://www .hzcourse.com/resource/readBook?path-/openresources 


teach ek 





th-/openresources/ 





teach ek 


“。” 这 3 个 词 共 使 用 了 10 次 。 下 面 的 曲线 是 频率 分 布 曲线 ， 观 察 该 曲线 可 以 


次 数 ， 各 组 频数 与 全 部 频数 之 和 的 比值 称 为 频率 或 比重 。 为 了 统计 分 析 的 需要 ， 
称 为 向 上 累积 ， 反 之 为 向 下 累积 。 频 率 的 最 终 累积 值 为 100%。 设 


I Figure 1 


£ OO +z ПВ 


= 
里 
d 
E 
^" 
E 
E 





图 12-6” 词 频率 分 布 图 


程序 12-11.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 对 词 经 、 包 含 词 等 情况 进行 分 析 : 


f--coding:utf-8-- 
#code by myhaspl 




















#12-11.ру 

from future import unicode literals 
from future import division 

import pylab 

import nltk 

import sys 


sys.path.append ("http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 

import jieba 

def cutstring (txt): 











EDI 
cutstr = jieba.cut (txt) 
result=" ".join(cutstr) 
return result 
# 读 取 文 件 
txtfileobject = open('nltest2.txt','r') 


try: 








filestr = txtfileobject.read( ) 

finally: 
txtfileobject.close( ) 

cutstr-cutstring (filestr) 

tokenstr-nltk.word tokenize (cutstr) 

fdist-nltk.FreqDist (tokenstr) 

# 以 词 频 递 减 的 顺序 访问 所 有 以 " 神 "开头 的 词 

print "以 词 频 递减 的 顺序 访问 所 有 以 " 神 " 开 头 的 词 " 

mywords-[w for w in fdist.keys() if w.startswith (u" 神 ") ] 

for word in mywords: 




















print мога," ||", 
T USER 35 28 69 LE 127 P| PT. A" 8289 38] 
print 


print "以 词 频 递减 的 顺序 访问 所 有 以 "学 "结尾 的 词 " 
mywords-[w for w in fdist.keys() if w.endswith (0" 5") ] 
for word in mywords: 


print word,"||", 
# 以 词 频 递减 的 顺序 访问 所 有 包含 "美国 "的 搭配 词 
print 


print "以 词 频 递减 的 顺序 访问 所 有 包含 "美国 "的 搭配 词 " 
bigramwords-nltk.bigrams (tokenstr) 
mywords-[w for w in set(bigramwords) if u"XIE" in w] 
for fw,sw in mywords: 

print fw," ",sw,"|", 





程序 12-11.py 中 有 以 下 几 个 关键 知识 点 。 


1) 词缀 。 通 过 endswith 函 数 对 词 后 分 析 。 代 码 如 下 所 示 : 





print "以 词 频 递 减 的 顺序 访问 所 有 以 "学 "结尾 的 词 " 
mywords-[w for w in fdist.keys() if w.endswith (u" 学 ") ] 
for word in mywords: 

print word,"||", 




















通过 startswith 函 数 对 词 的 前 级 进行 分 析 。 代 码 如 下 所 示 : 


print "以 词 频 递减 的 顺序 访问 所 有 以 " 神 " 开 头 的 词 " 
mywords-[w for w in fdist.keys() if w.startswith (u" 神 ") ] 
for word in mywords: 

print word,"||", 























2) 包含 词 。 通 过 in 对 包含 词 进行 分 析 。 代 码 如 下 所 示 : 








bigramwords-nltk.bigrams (tokenstr) 
mywords-[w for w in set(bigramwords) if u"XIE" in w] 
For fw,sw in mywords: 

print fw," ",sw,"|", 





























程序 12-11.py 的 运行 结果 如 下 : 


以 词 频 递减 的 顺序 访问 所 有 以 " 神 " 开 头 的 词 神经 科学 | | 神经 节 || 神经 学 家 | | 以 词 频 递 减 的 顺序 访问 所 有 以 "学 "结尾 的 词 神经 科学 || 大 学 || 光学 || 社会 心理 学 || 心理 学 


|| 美国 杜 克 大 学 | | 以 词 频 递减 的 顺序 访 瞩 





程序 12-12.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 进行 条 件 频 率 分 析 : 





f--coding:utf-8-- 
#code by myhaspl 














#12-12.ру 
from future import unicode literals 
from Future — import division 














import pylab 
import nltk 
import sys 
sys.path.append ("http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 















































def cutstring (txt) 
DH 
cutstr = jieba.cut (txt) 
result=" ".join(cutstr) 





return result 
samples=[('nltestl1.txt',u' 科 技 '), ('nltest2.txt',u' 科 技 '), ('nltest3.txt',u' 财 经 '), ('nltest4.txt',u' 财 经 ')] 
samplewords= [ ] 






































For (filename, categories) in samples: 
# 读 取 文 件 
txtfileobject = open(filename,'r') 
try: 





js. 


filestr = txt 
finally: 
tcxtfileobject.close( ) 
cutstr-cutstring(filestr) 
tokenstr-nltk.word tokenize (cutstr) 
mywords-[w for w in tokenstr] 

for word in mywords: 
samplewords. саас аіедогіеѕ, мога) ) 


# 条 件 频率 ， 每 个 词汇 在 不 同 分 分 类 中 出 现 的 频率 


leobject.read( ) 
























































cfdenltk.ConditionalFreqDist (samplewords) 
Fdist=cfd[u')J⁄ 2 '] 

for word in fdist: 

print word 












































prini p "———— ЖЕ d К ----------- ü 
print cfd[u'H22'] [u' 流 动 性 '] 
print "---------- FA: Ж%---------- " 
for cnd in cfd.conditions(): 
print cnd 
print E Wu su ee a EU И АТИНА Ш 
аме 
print cfd[u' 财 经 '] .max () 
TAPER RA 
print "---------- 条 件 频率 分 布 表 ---------- " 








cfd.tabulate (title=u' 条 件 频 率 分 布 表 ', conditions-[u Ku an u ш 
cfd.plot (title=u' 条 件 频 率 分 布 图 ', conditions=[u' 科 技 ',U' 财 经 " 











程序 1 2-12. py 中 有 以 下 几 个 关键 知识 识 点 。 


1) 条 件 频率 字典 构造 。 可 使 用 NLTK 模 块 的 ConditionalFreqDist 浮 数 构 造 条 件 频率 字典 ， 条 件 频 率 字典 与 FreqDist 消 数 构造 的 频率 字典 不 同 (如 12-11.py 所 示 ) , 
这 样 就 可 以 实现 分 类 的 频率 分 析 了 。 


此 外 ，ConditionalFreqDist 函 数 的 参数 是 一 个 列表 ， 列 表 中 的 每 个 元 素 均 为 带 类 别 标志 的 元 组 ， 格 式 为 : (类别, 词汇 ) 。 代 码 如 下 所 示 : 





for word in mywords: 
samplewords.append ( (categories, мога) ) 


它 在 频率 的 基础 上 增加 了 文本 类 别 





2) 条 件 频率 字典 访问 。 生 成 的 条 件 频 率 字典 属于 二 维 结构 ， 第 一 维 是 类 别 ， 第 二 维 是 词汇 ， 下 面 的 代码 演示 了 分 析 访 问 财经 类 文本 中 的 “流动 性 ”一 词 的 频率 。 





print Was 9 HE 出 现 的 次 数 TL ы UE е 
print cfd[u'H22'] [u' 流 动 性 '] 











3) 条 件 频率 分 布 。 使 用 tabulate 函 数 绘制 条 件 频率 分 布 表 ， 使 用 plot 函 数 绘制 条 件 频率 分 布 图 。 








fd.tabulate (title=u' 条 件 频 率 分 布 表 ', conditions=[u' 科 技 ',u' 财 经 ']) 
fd. plot (title=u' 条 件 频 率 分 布 图 ', conditions=[u' 科 技 ',u' 财 经 ']) 


О 








О 





程序 12-12.py 首 先 输出 财经 类 的 所 有 词汇 及 财经 类 中 “流动 性 ”的 数量 ; 然后 输出 该 字典 内 包含 的 类 别 (条 件 ) ， 最 后 输出 频数 最 大 的 样本 及 频率 分 布 的 情况 。 运 行 











http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.. 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/. . . 体 量 起 超额 完成 过 硬 三 大 


nrc DE. 流动 性 出 现 的 хҗ----------- 









































一 一 一 一 一 一 一 一 一 一 条 件 频率 分 布 表 ---------- 高 级 高 达 高 速 鸡尾酒 鸣 声 黑暗 鼓励 ( ) ，: ; ? 科技 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompresse 


结果 如 下 : 


图 12- 7 为 程序 12-12.py 输 出 的 条 件 频率 分 布 图 ， 横 轴 为 词汇 ， 纵 轴 为 词汇 数量 。 


条 件 频 深 分 布 图 
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12.4.5 ”Web 文档 分 析 


Web 文 档 即 网 页 ， 它 是 构成 网 站 的 基本 元 素 ， 是 承载 各 种 网 站 应 用 的 平台 ，Web 文 档 是 一 个 包含 HTML 标 签 的 纯 文本 文件 ， 它 可 以 存放 在 世界 某 个 角落 的 某 一 台 计 算 机 中 ， 是 万 维 网 中 的 一 “页 ， 其 
格式 为 超 文 本 标记 语言 (标准 通用 标记 语言 的 一 个 应 用 ) ， 通 常 Web 文 档 的 文件 扩展 名 为 .html 或 .htm) 。 


Өз= HTML 是 用 来 描述 网 页 的 一 种 语言 ， 是 超 文本 标记 语言 (Hyper Text Markup Language) ， 但 它 不 是 一 种 编程 语言 ， 而 是 一 种 标记 语言 (makuplanguage) ， 标 记 语言 是 一 套 标 记 标 签 (markup 


tag) o 


HTML 使 用 标记 标签 来 描述 网 页 ，HTML 标 记 标 签 通常 被 称 为 HTML 标 签 (HTML tag) 。HTML 标签 是 由 尖 括 号 包围 的 关键 词组 成 的 ， 比 如 “<html>”。HTML 标 签 通常 是 成 对 出 现 的 ， 比 


如 “<b>” 和 “</b>”， 标 签 对 中 的 第 一 个 标签 是 开始 标签 ， 第 二 个 标签 是 结束 标签 ， 开 始 和 结束 标签 也 称 为 开放 标签 和 闭合 标签 。 比 如 下 面 这 段 网 页 : 


«html» 
«body» 
<һ1>Му First Headingc/h1» 
<р>Му first paragraph.«/p» 
</body> 
</html> 








上 述 网 页 的 HTML 标 签 意 义 为 : <html> 与 </html> 之 间 的 文本 是 描述 网 页 ; <body> 与 </body> 之 间 的 文本 是 可 见 的 页 面 内 容 ; <h1> 与 </h1> 之 间 的 文本 在 网 页 上 被 显示 为 标题 ) <p> 与 </p> 之 间 的 文本 


程序 12-13.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 对 Web 文 档 进行 条 件 频率 分 析 : 








f--coding:utf-8-- 
#code by myhaspl 
#12-13.ру 

from Future impor]! 


from future ` impor! 
import pylab 
import nltk 
import urllib 

from bs4 import BeautifulSoup 
import sys 
Sys.path.append ("http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei!'] 

import jieba 

def cutstring (txt): 

1238 











unicode literals 
division 











Ct cd 










































































cutstr = jieba.cut (txt) 
result-" ".join(cutstr) 
return result 
urls-[(u'fHE","http://tech.163.com/16/0203/06/BESLRF50000915BD.html"), (u'fRHÉ","http://tech.163.com/16/0202/01/BEPHEI120009405H.html"), (u' EHE", "http://tech.163.com/16/0203/03/: 
samplewords-|[] 
print "Ç =", 
for (category,myurl) in urls: 
htmlsrc-urllib.urlopen (myurl).read() 
htmlsrc-htmlsrc.decode('gbk') 
soup = BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc-soup.find all(id-"endText" ) 
tcxtsoup-BeautifulSoup (repr (txtsrc[0])) 
tcxtstr-txtsoup.get text () 
txtstr-txtstr.decode ('gbk').decode ("unicode-escape") .encode ('utf-8') 
cutstr-cutstring (txtstr) 
tokenstr-nltk.word tokenize (cutstr) 
for word in tokenstr: 
samplewords.append ( (category, word) ) 
print uU 
print "=> |" 
cfdistenltk.ConditionalFreqDist (samplewords) 
# 知 识 一 词 的 频率 
print cfdist[u' 科 技 '] .freq(u' 知 识 ') 
samplews-[] 
meia 出 现 最 多 的 20 个 词 
fd=cfdist [u pm 
ER E Вет ез x: (x[1],x[0]),reverse-True)[:20] 
for w,c in edufa20: 
print W, nx ë; " | | Mo 
samplews.append (w) 
print 
# 在 科技 分 dos 出 现 最 多 的 20 个 词 
fd=cfdist[u' 科 技 '] 
ТИЕ sss s x: (x[1],x[0]),reverse-True)[:20] 
for w,c іп techfd20: 























































































































































































































print W, "AU ©, "Ç | | " 
samplews.append (w) 
print 


samplews-set (samplews) 

TAPER 2-7 E 

cfdist.tabulate (title-u' 1 € 42-75 X',samples-samplews, om [u' 科 技 ',u' 教 育 ']) 
cfdist.plot (title=u' 条 件 频率 分 布 图 ', samples=samplews,conditions=[u' 科 技 ',u' 教 育 ']) 

















程序 12-13.py 中 有 以 下 几 个 关键 知识 点 。 
(1) 解析 网 页 


Web 文 档 通 常 是 HTML 格 式 的 网 页 ， 处 理 此 类 文档 的 关键 在 于 提取 标签 中 的 内 容 ， 下 面 的 代码 片段 演示 了 如 何 解 析 网 页 文本 。 首 先 ， 通 过 urllib 模 块 的 urlopen 打 开 Web 链 接 ， 并 通过 read 遂 数 读 取 链接 
指向 的 HTML 内 容 。 然 后 ， 通 过 BeautifulSoup 模 块 对 HTML 文 本 做 进一步 处 理 ， 本 例 中 需要 提取 新 闻 的 正文 ， 观 察 新 闻 的 网 页 文本 可 发 现 ， 其 正文 通常 处 于 id 为 endText 的 标签 内 。 具 体 过 程 为 : 通过 调用 


о mene 提取 标签 中 的 内 容 ， 通 过 BeautifulSoup 模 块 的 get_text 浮 数 去 掉 提 取 内 容 中 残余 的 HTML 标 记 ， 得 到 纯净 的 新 闻 正 文字 符 串 。 最 后 ， 将 新 闻 正 文字 符 串 进 行 
jieba 分 词 和 NLTK 分 词 ， 以 便 进行 下 一 步 处 理 。 


htmlsrc-urllib.urlopen (myurl).read() 

htmlsrc-htmlsrc.decode('gbk') 

soup = BeautifulSoup(htmlsrc, 'html.parser') 

txtsrc-soup.find all(id-"endText" ) 
txtsoup-BeautifulSoup (repr (txtsrc[0])) 

cxtstr-txtsoup.get text () 

txtstr-txtstr.decode ('gbk').decode ("unicode-escape") .епсоае ('utf-8') 
cutstr-cutstring (txtstr) 

tokenstr-nltk.word tokenize (cutstr) 


































































































在 解析 网 页 时 需要 特别 注意 字符 编码 的 问题 ， 中 文 网 页 文本 的 字符 编码 格式 不 止 UTF-8 一 种 ， 很 多 中 文 网 页 是 GB2312 格 式 的 编码 ， 通 过 HTML 的 charset 属 性 可 指定 HTML 文 档 的 字符 编码 。 对 于 不 同 字 
符 编 码 的 文本 需要 调用 decode() 和 encode() 来 进行 解码 和 编码 。 


(2) 某 条 件 下 出 现 最 多 的 高 频 词汇 


可 通过 分 析 某 条 件 下 出 现 频率 最 多 的 词汇 ， 近 似 得 到 该 条 件 的 常用 关键 词 。 下 面 的 代码 片段 对 条 件 频率 字典 cfdist 中 的 教育 条 件 (对 于 本 例 而 言 ， 此 处 的 条 件 部 分 实质 上 是 类 别 ，“ 某 条 件 下 ”意味 
着 “ 某 类 别 下 ”) 进行 排序 ， 排 序 的 依据 是 值 〈 即 词汇 频数 ) ， 排 序 的 函数 是 Python 的 sorted 函 数 ， 返 回 词 频 从 大 到 小 的 词汇 列表 ， 列 表 的 前 20 个 元 素 就 是 出 现 得 最 多 的 高 频 词汇 


o 


# 在 教育 vue lij in & Z 45920414 
Fd-cfdist[u'2t d 
` йлн x: (x[1],x[0]),reverse-True)[:20] 
for w,c in edufa20: 
print W, "SMS e, " | | ШЕ 
samplews.append (w) 



































程序 12-13.py 的 运行 结果 如 下 : 





0.00117233294256 

‚ => 541 || 的 => 356 || „ => 238 || Æ => 102 ||] < = 86 || Y = 85 || 是 => 77 || 学 生 = 75 || " = 67 || " = 67 || 学 校 => 53 || 毕业 生 => 51 || 就 业 => 49 || $ => 48 || 她 

‚ => 126 || #9 => 121 J| „ = 59 || # => 38 || # = 19 || 了 => Hu iPhone => 17 || 量子 => 15 || AX = 15 || "=> 14 || " = 14 || 份额 => 13 || : = 12 || 世界 => 12 ||. 
、 的 了 有 上 X 和 ”学校 $ ”份额 在 是 ”学 生 毕业 生 Windows ”就业 iPhone ; 美国 A 也 ”机 器 人 一 个 她 


程序 12-13.py 首 先 输出 “知识 ”一 词 在 科技 分 类 中 的 频率 (此 处 的 频率 不 是 频数 ， 可 理解 为 “知识 ”在 科技 类 别 的 文档 中 出 现 的 概率 ) 为 0.00117233294256; 然后 输出 在 科技 、 教 育 类 别 中 出 现 最 多 
的 20 个 高 频 词 。 最 后 ， 输 出 高 频 词 的 条 件 频率 分 布 表 ， 并 绘制 条 件 频率 分 布 图 (如 图 12-8 所 示 ) ,观察 图 12-8， 较 高 的 曲线 为 教育 ， 较 低 的 曲线 为 科技 ， 可 见 这 20 个 高 频 词 属于 教育 的 频数 比 属于 科技 的 要 


多 。 


12.4.6 Web 文档 的 朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 器 (Маме Bayes Classifier, NBC) 发 源 于 古典 数学 理论 ， 有 着 坚实 的 数学 基础 和 稳定 的 分 类 效率 ; 同时 ，NBC 模 型 


Counts 


600 


500 


400 


300 


200 


100 


NBC 模 型 假设 属性 之 间 相 互 独立 ， 通 


果 发 现 特定 的 问题 中 人 存在 特殊 的 模式 属性 ， 那 么 就 单独 进 


1. 词 汇 特征 项 分 析 
假设 某 样本 中 的 若干 文本 共 分 为 两 类 ， 


f--coding:utf 


-8-- 





#code by myhaspl 
#12-14. ру 


from 





Fu 


cure — 


过 建立 一 个 属性 模型 ， 将 相互 不 独立 的 属性 单独 处 理 。 例 如 对 中 文 文本 进 
这 是 自然 语言 与 其 他 分 类 识别 问题 的 不 同 点 。 


“中 国 ” 这 一 词汇 在 两 类 样本 中 存在 的 频率 不 一 样 ， 存 在 的 可 能 性 也 不 相同 。 程 序 12-14.py 演 示 了 使 用 NLTK 分 析 词 条 归 


行 处 理 ) ， 








from 








u 


cure — 


import 





Ct cd 


unicode literals 


division 
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impo 
impo 





impo 
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ri 


t pyl 





EL 
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nl 
url 
from bs4 import 
t sys 
Sys.path.append ("http: //www.hzcourse.com/resource/readi 
font.sans-serif' 








impor! 
ab 


tk 


lib 











ti 





Beau 


fulSoup 





mpl.rcParams[' 











impo 
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# 停 用 词 字 典 


try: 


fina] 


t jieba 


f stop - open('stopwords.txt 





top ` 





сех 























top _ 


工 stop. seg lis 


text-unicode 


top. close( ) 


) 





f stop.read( ) 











]*"['SimHei'] 
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(£a 








def 





cu 


12738 


CS 


cring( 








txt) 





CULS 
res 
rec 


ul 
urn result 


tr = jieba.cut( 


Е stop ` 





txt) 


t-" ".join(cutstr) 





def 








word 


Features 


(word): 








urls 


samplewords- 


prin 
for 








rei 
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t "T 
(ca 
html 





tegory,myurl) 
src-url]l 


[] 





in 


urn ("cnword":word] 
u" f H£","http://tech.163.com/16/0203/06/BESLRF500009158BI 


urls: 




















html 


src-h 


tmlsrc.dec 





SO 





up = 





Beauti 








Lx 


LSrC=SO 


up. 





Lx 


tsoup= 





BeautifulSo 


FulSoup( 
find all (id-"endText" ) 
up (repr (txtsrc[0])) 


ib.urlopen (myurl) 


ode ('gbk') 
htmlsrc, 


top text, 





'utf 


text.split('WMn') 


D.html") 





.read() 


'html.parser') 








UXUS 


= 





txtsoup.ge 





UXUS 
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LXLS 





() 


Lext 








CULS 


С=С 








utstring (tx 











if 


tokenstr-nlt 
for myword in tokenstr: 








k.word 











not (myword. s! 


tstr) 





in 


trip () 


tr.decode ('gbk') . decode ("unicode-escape") . encode (' 


tokenize (cuts 


utf 





tr) 
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条 件 频率 分 布 图 


图 12-8 条件 频率 分 布 图 


了 分 类 的 时 候 ， 


(u" 科 技 ", "http://tech.163.com/16/0202/01/] 


可 以 建立 一 个 


PE 


Book?path-/openresources/teach ebook/uncompressed/15753/OE 








BPS/Text/../") 














EPHE 











top seg list) and len (myword.strip())»1 





需 估计 的 参数 很 少 ， 


字典 来 处 理 一 些 词组 ， 把 一 个 


120009405H.html") 





对 缺失 数据 不 太 敏 感 ， 算 法 也 比较 简单 。 


词组 看 作 一 个 单独 的 模式 (如 


属 类 别 的 可 能 性 : 


(u" 科 技 ", "http://tech.163.com/16/0203/03/ 








samplewords.append ( (wordf 
print "=", 


eatures (myword),category)) 


# 测 试 数据 
testurl-"http://edu.163.com/16/0204/05/BEVA40UHF00294NE9 .html" 












































cestwords-[] 

htmlsrc-urllib.urlopen (testurl).read() 
htmlsrc-htmlsrc.decode('gbk') 

soup = BeautifulSoup(htmlsrc, 'html.parser') 

















txtsrc-soup.find all(id-"endText" ) 
txtsoup-BeautifulSoup (repr (txtsrc[0])) 

tcxtstr-txtsoup.get text () 
txtstr-txtstr.decode ('gbk').decode ("unicode-escape") .епсоае ('utf 
cutstr-cutstring (txtstr) 

tokenstr-nltk.word tokenize (cutstr) 

for myword in tokenstr: 


if not(myword.strip() in f stop seg list) and len (myword.strip())^1 


























































































































testwords.append ( (wordfeatures (myword), "教育 ") ) 
print "=", 

print "=>|" 

classifier-nltk.NaiveBayesClassifier.train (samplewords) 

# K 所 属 的 类 别 

print u"---- X4 所 属 的 类 А] 一 一 一 一 一 " 

print с] assifier. classify (("cnword":u" X ")) 

# 大 脑 所 属 的 类 别 

print u"-——- X ja Ep hg Æ% 3] -———— " 

print classifier.classify(("cnword":u" XJlà")) 

# 测 试 数据 分 类 的 准确 率 
print nltk.classify.accuracy (classifier,testwords) 




















# 特 征 分 类 最 有 效 的 10 个 词 









































































































































































































































for wf,mostword in classifier.most informative features (10): 
print mostword, 
print 
#2 XRutf-8, Jfshow most informative features 代 码 进行 修改 
$classifier.show most informative features(10) 也 可 直接 调用 这 和 名， 但 是 utf-8 显 示 有 问题 
cpdist = classifier. feature probdist 
print('Most Informative Features") 
For (f name, fval) in classifier.most informative features (10): 
def labelprob(1): 
return cpdist[l1, fname].prob(fval) 
labels = sorted([l for 1 in classifier. labels 
if fval in cpdist[l, fname].samples()], 
key-labelprob) 
if len(labels) == 1: 
continue 
10 = labels[0] 
11 = labels[-1] 
if cpdist[10, fname].prob(fval) == 
ratio = 'INF' 
else 
ratio = '$8.1f' $ (cpdist[11, fname].prob(fval) / 
cpdist[l10, fname].prob(fval)) 
print fname-r"-"-rfval, 
print(('$6s : $-6s = %5 : 1.0' S (("%5" $ 11)[:6], ("%5" $ 10)[:6], ratio))) 





程序 1 2-14. py 中 有 以 下 几 个 关键 知识 识 点 。 


1) 去 除 Web 文 档 中 的 停 用 词 。 在 处 理 自然 语言 数据 (或 文本 ) 之 前 或 之 后 有 时 需要 自动 过 滤 掉 某 些 字 或 词 ， 


点 符号 及 使 用 频率 特 高 的 单 汉字 等 。 


汇 


М.У 


下 面 的 代码 片段 通过 Word_tokenize 完 成 NLTK 分 词 后 ， 遍 历 分 词 结果 ， 如 果 含有 停 用 词 或 是 单 汉字 的 ， 则 作为 停 用 词 ， 不 将 其 加 入 最 终 分 词 


tokenstr=nltk. word tokenize 
for myword in tokenstr: 
if not(myword.strip() in f stop seg list) and len (myword.strip())»1 
samplewords.append ( (wordfeatures (myword), category) ) 
print "=", 


(cutstr) 


























2) 构造 朴素 贝 叶 斯 分 类 器 。 通 过 nltk.NaiveBayesClassifier 的 train 方 法 ， 将 文本 特征 作为 参数 ， 构 造 朴 素 贝 叶 斯 分 类 器 。 代 码 如 下 所 示 : 











classifier-nltk.NaiveBayesClassifier.train(samplewords) 





3) 某 词 汇 属于 某 类 别 的 可 能 性 。 下 面 的 代码 演示 了 如 何 计算 “大脑 ”一 词 最 可 能 归属 的 文本 类 别 : 












































print u"---- 大 脑 所 属 的 类 别 ----- a 

print classifier.classify(("cnword":u" XJffá"]) 

Д) 对 分 类 最 有 贡献 的 词汇 。most_informative_features 函 数 将 返回 对 分 类 最 有 效 的 词汇 ， 参 数 是 词汇 数量 。 代 码 如 下 所 示 : 
For wf,mostword in classifier.most informative features (10): 


print mostword, 


此 外 ， 还 可 调用 show_most informative features št Wn 2583 BH e E FHBIS E LENSES. 


5) 测试 分 类 的 准确 率 


# 测 试 数据 分 类 的 准确 率 


print nltk.classify.accuracy (classi 








fier,testwords) 











6) 词汇 特征 分 析 。NLTK 的 朴素 贝 叶 斯 分 类 器 对 特征 项 的 要 求 是 : 每 个 特征 项 (在 本 例 中 为 每 个 词汇 ) 为 
的 所 有 特征 组 成 了 该 特征 项 (在 本 例 中 为 该 词汇 ) 的 特征 4 字典 。 代 码 如 下 所 示 : 


元 素 的 键 是 特 


| >< -~ 





def 








wordfeatures (word): 
return [("cnword":word] 





程序 12-14.py 的 运行 结果 如 下 : 


























这 些 字 或 词 称 为 Stop Words ( 停 用 词 ) 


征 名 称 了 


寺 征 列表 (该 列表 是 进 一 


字典 元 素 的 值 是 特征 值 ， 某 特 


ib 


， 停 用 词 主要 包括 英文 字符 、 数 字 、 数 学 


T SCANS 


寺 征 的 依据 ) 中 。 


征 项 (在 本 例 中 为 某 词 








| http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openres 











---- 大 学 所 属 的 类 别 ----- 教育 

_——— ÀK Jš f 4g 3x ----- 科技 

0.977346278317 世 界 公司 事先 游戏 之 后 领域 采用 学 科 里 面 技术 
Most Informative Features 

cnword= 世 界 科技 : 教育 = 20.6 : 1.0 
Cnword= 公 司 科技 : 教育 = 12.4 : 1.0 
cnword-3 Z, 科技 : 教育 = ыб. Ld 
cnword=j x, 科技 : 教育 Е 5.8 i 1.0 
cnword-z & 科技 : 教育 = 4.5 : 1.0 
cnword-Zf 3%, 科技 : 教育 Е 4.5 : 1.0 
спмога= А 科技 : 教育 = 4.5 : 1.0 
cnword= 学 科 科技 : 教育 Е 4.1 : 1.0 











Cnword= 里 面 科技 : 教育 
cnword= 技 术 科技 : 教育 





кҥн 
оо 


见 察 上 述 的 运行 结果 ， 程 序 12-14.py 首 先 分析 “大 学 ”最 有 可 能 属于 教育 类 别 ， 而 “大 脑 ” 最 有 可 能 属于 科技 类 别 ; 然 后 输出 数据 分 类 的 准确 率 为 0.977346278317， 并 输出 分 类 最 有 效 的 10 个 词汇 ， 
最 后 反映 词汇 在 不 同类 别 中 出 现 的 比例 ， 比 如 ， 观 察 输出 结果 的 最 后 一 行 ，“ 技 术 ” 一 词 在 科技 中 出 现 的 频率 是 在 教育 中 出 现 频率 的 4.1 倍 


4 


程序 12-15.py 演 示 了 如 何 使 用 NLTK 对 不 同 词 及 词 长 归属 类 别 可 能 性 的 分 析 : 





f--coding:utf-8-- 
#code by myhaspl 









































































































































#12-15.ру 
from Future import unicode literals 
from future import division 
import pylab 
import nltk 
import urllib 
from bs4 import BeautifulSoup 
import random 
import sys 
sys.path.append ("http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 
import jieba 
# 停 用 词 字 典 
f stop = open('stopwords.txt') 
try: 

f stop text = f stop.read( ) 

F stop text=unicode (f stop text,'utf-8') 
finally: 一 E 

| Stop.close( ) 

f stop seg list-f stop text.split('WMn') 
def cutstring (txt): 

12738 

cutstr = jieba.cut (txt) 

result-" ".join(cutstr) 

return result 
def wordfeatures (word): 

















return í("cnword":word,"wcnlen":len(word) } 






































urls-[(u'fHi","http://tech.163.com/16/0203/06/BESLRF50000915BD.html"), (u'fRHÉ","http://tech.163.com/16/0202/01/BEPHEI120009405H.html"), (u'VEHE","http://tech.163.com/16/0203/03/: 
samplewords-[] 
print nm = 














for (category,myurl) in urls: 
htmlsrc-urllib.urlopen (myurl).read() 
htmlsrc-htmlsrc.decode('gbk') 
soup = BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc-soup.find all(id-"endText" ) 
txtsoup-BeautifulSoup (repr (txtsrc[0])) 
cxtstr-txtsoup.get text () 
txtstr-txtstr.decode ('gbk').decode ("unicode-escape") .encode ('utf-8') 
cutstr-cutstring (txtstr) 
tokenstr-nltk.word tokenize (cutstr) 
for myword in tokenstr: 
if not(myword.strip() in f stop seg list) and len (myword.strip())^1 
samplewords.append ( (myword, category) ) 
print "— Ы? 
# 通 过 apply ` features Hi wata. 不 在 内 存 中 存储 所 有 的 特征 集 ， 以 节约 内 存 
samplelen-len (samplewords) 
trlen-int(samplelen*2/3) # 训 练 样 本 的 长 度 
random. shuffle (samplewords) 
traintxt=nltk.classify.apply features (wordfeatures, samplewords[:trlen]) 




















































































































































































































testtxt-nltk.classify.apply features (wordfeatures, samplewords [trlen:]) 

print "=> |" 

classifier-nltk.NaiveBayesClassifier.train (traintxt) 

# 大 学 所 属 的 类 别 

print u"---- KF 所 属 85 3&3----- " 

print с] assifier. classify (("cnword":u" X ","wcnlen":len (u" К") }) 

# 大 脑 所 属 的 类 别 

print u"---- 大 脑 所 属 的 类 别 ----- n 

print classifier.classify ({"cnword":u" КЛ", "wcnlen":1len (u" Л") } ) 
EMIRAT Ж 8 ЕЙ E 

print nltk.classify.accuracy (classifier, testtxt) 























# 特 征 分 类 最 有 效 的 10 个 特征 

For wf,mostword in classifier.most informative features (10): 
print mostword, 

print 






























































# 为 显示 utf-8， 将 show most informative features 代 码 进 行 修改 
#classifier.show most informative features (10) # 也 可 直接 调用 这 名 ,但 是 utf-8 显 示 有 问题 
cpdist = classifier. feature probdist 

















print('Most Informative Features') 

For (fname, fval) in classifier.most informative features (10): 
def labelprob (1): 

return cpdist[l, fname].prob(fval) 

labels = sorted([l for 1 in classifier. labels 
































































































































if fval in cpdist[l, fname].samples()], 
key-labelprob) 

if len(labels) == 1: 

continue 
10 = labels[0] 
11 = labels[-1] 
if cpdist| 10, fname].prob(fval) == 0: 

ratio = 'INF' 
else: 

ratio = '$8.1f' $ (cpdist[11, fname].prob(fval)/ 











cpdist[l10, fname].prob(fval)) 














print fname, 

print "un 

print fval, 

print (('%65 $-6s = $s 1.0' $ (("$s" $ 11)[:6], ("%5" $ 10)[:6], ratio))) 


程序 12-15.py 中 有 以 下 几 个 关键 知识 点 。 


1) 词汇 特征 分 析 。 以 某 词汇 的 内 容 和 长 度 作 为 该 词汇 的 特征 项 ， 代 码 如 下 所 示 : 











def wordfeatures (word): 
return í("cnword":word,"wcnlen":len(word) } 





2) 不 在 内 存 中 存储 文本 的 所 有 特征 项 集 ， 以 节约 内 存 。 通 过 apply _ features 方法， 创建 文本 特征 项 集 的 列表 ， 可 不 在 内 存 中 人 存储 所 有 特征 项 集 ， 当 特征 项 数量 特别 大 时 ， 这 种 方法 能 节约 内 存 。 代 码 如 
下 所 示 : 











traintxt-nltk.classify.apply features (wordfeatures, samplewords[:trlen]) 
testtxt-nltk.classify.apply features (wordfeatures, samplewords [trlen:]) 























程序 12-15.py 的 运行 结果 如 下 : 

















| http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresc 
---- 大 学 所 属 的 类 别 ----- 教育 

---- K B Pf a Ж )----- 科技 
0.863354037267 

8 世界 公司 7 信息 领域 6 学 科 里 面 事先 
Most Informative Features 

wcnlen = 8 科技 : 教育 = 15.1 : 1.0 
cnword = 世界 科技 : 教育 = 









































cnword = 公司 科技 : 教育 = 10.2 : 1.0 
wcnlen = 7 科技 : 教育 = 5.6 : 1.0 
cnword = 信息 科技 : 教育 = 5.5 f LO 
cnword = 领域 科技 : 教育 ES 5.5 s 1.0 
wcnlen = 6 科技 : 教育 = 4.8 : 1.0 
cnword = 学 科 科技 : 教育 - 3.9 : 1.0 
cnword = 里 面 科技 : 教育 = 3.94 1,0 
cnword = 事先 科技 : 教育 = 3.9 : 1.0 


观察 上 述 运行 结果 ， 程 序 12-15.py 首 先 分 析 “ 大 学 ”最 有 可 能 属于 教育 类 别 ， 而 “大 脑 ” 最 有 可 能 属于 科技 类 别 ; 然后 输出 数据 分 类 准确 率 为 0.863354037267， 并 输出 分 类 最 有 效 的 10 个 特征 ， 用 前 3 
个 特征 8、“ 世 界 ”、 “公司 ” 为 例 进 行 剖析 可 以 看 出 ， 长 度 为 8、 “世界 ”、“ 公 司 ” 是 对 分 类 最 有 效 的 前 3 个 特征 ; 最 后 反映 特征 在 不 同类 别 中 出 现 的 比例 ， 比 如 ， 观 察 输出 结果 的 最 后 一 行 ，“ 事 
先 ” 在 科技 类 别 中 出 现 的 频率 是 教育 类 中 出 现 频率 的 3.9 倍 


程序 12-16.py 演 示 了 如 何 使 用 NLTK 的 不 同 词 归属 类 别 可 能 性 的 分 析 ， 与 12-14.py 的 不 同 之 处 在 于 : 特征 字典 的 值 为 该 词汇 是 否 出 现 。 





f--coding:utf-8-- 
#code by myhaspl 














#12-16.ру 
from _ future import unicode literals 
from future ` import division 














import pylab ` 
import nltk 
import urllib 
from bs4 import BeautifulSoup 

import random 

import sys 

sys.path.append ("http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 

import jieba 




































































def cutstring (txt): 
LEE 
cutstr = jieba.cut (txt) 
result-" ".join(cutstr) 


return result 
def txtfeatures (allwords,tokenw,stopseg): 
features-í() 
for myword in set (allwords): 
if not(myword.strip() іп stopseg) and len (myword.strip())»1 


























































































































features ["cnword-"4myword]- (myword in set (tokenw)) 
print 本 二 本 ; 
return features 
# 停 用 词 字 典 
f stop = open('stopwords.txt') 
try: 
Е stop text = f stop.read( ) 
f stop text-unicode(f stop text,'utf-8') 
finally: Е Е 
| Stop.close( ) 
f stop _ seg list-f stop text.split('Mn') 
urls-[(u'fHi","http://tech.163.com/16/0203/06/BESLRF50000915BD.html"), (о" 8", "http://tech.163.com/16/0202/01/BEPHEI120009405H.html"), (u'"fFH&", "http://tech.163.com/16/0203/03/! 
samplewords-|[] 
allw-[] 
tokendocstr-[] 
print "т =", 
for (category,myurl) in urls: 











htmlsrc-urllib.urlopen (myurl).read() 
htmlsrc-htmlsrc.decode('gbk') 
soup = BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc-soup.find all(id-"endText" ) 
cxtsoup-BeautifulSoup (repr (txtsrc[0])) 
tcxtstr-txtsoup.get text () 
txtstr-txtstr.decode ('gbk').decode ("unicode-escape") .encode ('utf-8') 
cutstr-cutstring (txtstr) 
tokendocstr.append (nltk.word tokenize (cutstr)) 
for docstr in tokendocstr: 
for w in docstr: 
allw.append (w) 
allw-set (allw) 
samplefeatures-[] 
i-0 
for docstr in tokendocstr: 
docfeature-txtfeatures (allw,docstr,f stop seg list) 
samplefeatures.append( (docfeature,urls[i][0])) 
і=і+1 
samplelen-len (samplefeatures) 
trlen-int (samplelenx2/3)# 训 练 样 本 长 度 
random. shuffle (samplefeatures) 
traintxt-samplefeatures[:trlen] 
testtxt-samplefeatures[trlen:] 
print "=>|" 
classifier-nltk.NaiveBayesClassifier.train(traintxt) 
# 测 试 数据 分 类 准确 率 
print nltk.classify.accuracy (classifier,testtxt) 
classifier.show most informative features (15) 
























































































































































































































































观察 程序 12-16.py， 对 文本 进行 特征 分 析 时 ， 其 文本 特征 项 由 非 停 用 词 特征 组 成 ， 每 个 非 停 用 词 的 特征 计算 方式 为 : 特征 名 称 为 非 停 用 词 内 容 ， 特 征 值 为 True (该 非 停 用 词 在 该 文本 中 出 现 ) 或 
False (该 非 停 用 词 未 在 该 文本 中 出 现 ) 。 代 码 如 下 所 示 : 








def txtfeatures (allwords,tokenw,stopseg): 

features-í() 

for myword in set (allwords): 

if not(myword.strip() іп stopseg) and len (myword.strip())»1 

features ["cnword-"4myword]- (myword in set (tokenw)) 
print bs ; 

return features 





























程序 12-16.py 首 先 输出 分 类 准确 率 为 0.666666666667; 然后 输出 对 分 类 最 有 效 的 前 15 个 特征 。 程 序 12-16.py 的 运行 结果 如 下 : 





























http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
0.666666666667 
Most Informative Features 






































cnword- 国 外 = False 科技 : 教育 = 2.2 : 1.0 
cnword-—-4F = False 科技 : 教育 = 242% 140 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openre 
cnword-JNm Pf = False 科技 : 教育 = 2.2 : 1.0 
cnword-4$5-: = False 科技 : 教育 = 2.2 : 1.0 


2. 网 页 分 类 


Ж 


程序 12-17.py 演 示 了 如 何 使 用 NLTK 对 未 知 网 页 进行 朴素 贝 叶 斯 分 类 : 





f--coding:utf-8-- 
#code by myhaspl 














#12-17.ру 
from _ future _ import unicode literals 
from future ` import division 














import pylab ` 
import nltk 
import urllib 





























from bs4 import BeautifulSoup 
import sys 
sys.path.append ("http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 
pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 

import jieba 












































def cutstring (txt): 
DH 
cutstr = jieba.cut (txt) 
result=" ".join(cutstr) 


return result 
def txtfeatures (allwords,tokenw,stopseg): 
features-í() 
for myword in set (allwords): 
if not(myword.strip() in stopseg) and len (myword.strip())»1: 





























































































































features ["cnword-"4myword]- (myword in set (tokenw)) 
return features 
# 停 用 词 字 典 
f stop = open('stopwords.txt') 
try: 
f stop text = f stop.read( ) 
f stop text-unicode(f stop text,'utf-8') 
finally: ` Е Е 
f stop.close( ) 
f stop seg list-f stop text.split('Mn') 
urls-[ (u'fHi","http://tech.163.com/16/0203/06/BESLRF50000915BD. html"), (u' #25", "http: //tech.163.com/16/0202/01/BEPHEI120009405H.htm1"), (u' #3", "http: //tech.163.com/16/0203/03/ 
samplewords-|[] 





allw-[] 
tokendocstr-[] 
print "|=", 





for (category,myurl) in urls: 
htmlsrc-urllib.urlopen (myurl).read() 
htmlsrc-htmlsrc.decode('gbk') 

soup = BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc-soup.find all (id-"endText" ) 
txtsoup-BeautifulSoup (repr (txtsrc[0])) 
tcxtstr-txtsoup.get text () 
txtstr-txtstr.decode('gbk').decode ("unicode-escape") .encode ('utf-8') 
cutstr-cutstring (txtstr) 
tokendocstr.append (nltk.word tokenize (cutstr)) 
print =й a 
for docstr in tokendocstr: 
for w in docstr: 
allw.append (w) 
allw-set (allw) 
samplefeatures-[] 




















































































































for docstr in tokendocstr: 
docfeature-txtfeatures (allw,docstr,f stop seg list) 
samplefeatures.append ( (docfeature, urls [i][0])) 
і=і+1 
traintxt-samplefeatures 
print "=> |" 
classifier-nltk.NaiveBayesClassifier.train(traintxt) 
# 新 的 网 页 
testmyurl="http://tech.163.com/16/0207/09/BF7AR5D4000915BD.html" 
testhtmlsrc=urllib.urlopen (testmyurl).read() 
testhtmlsrc=testhtmlsrc.decode ('gbk') 
soup = BeautifulSoup(testhtmlsrc, 'html.parser') 
testtxtsrc-soup.find all (id-"endText" ) 
testtxtsoup-BeautifulSoup (repr (testtxtsrc[0])) 
testtxtstr-testtxtsoup.get text () 
testtxtstr-testtxtstr.decode ('gbk').decode ("unicode-escape") .encode ('utf-8') 
testcutstr-cutstring(testtxtstr) 
testtokendocstr-nltk.word tokenize (testcutstr) 
Ltestdocfeature-txtfeatures (allw,testtokendocstr,f stop seg list) 
# 测 试 数据 分 类 


print classifier.classify (testdocfeature) 















































































































































































































































程序 12-17.py 中 有 以 下 关键 知识 点 。 


1) 文本 特征 分 析 。 对 文本 特征 的 分 析 首 先 从 词汇 特征 入 手 ， 在 去 除非 停 用 词 后 ， 余 下 的 词汇 对 文本 特征 的 提取 均 有 意义 ， 每 个 非 停 用 词 的 特征 名 称 均 为 非 停 用 词 的 内 容 ， 特 征 值 为 True (该 非 停 用 词 
在 该 文本 中 出 现 ) 或 False (该 非 停 用 词 未 在 该 文本 中 出 现 ) 。 








def txtfeatures (allwords,tokenw,stopseg): 

features-() 

for myword in set (allwords): 

if not(myword.strip() in stopseg) and len (myword.strip())»1: 
features ["cnword-"4myword]- (myword in set (tokenw)) 
return features 





























2) 分 类 结果 。 调 用 分 类 器 对 象 classifier 的 classify 方 法 对 未 知 样本 数据 进行 分 类 : 

















print classifier.classify (testdocfeature) 





程序 12-17.py 的 运行 结果 如 下 : 




















http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 











观察 12-17.py 的 运行 结果 可 以 得 知 ， 链 接 http://tech.163.com/16/0207/09/BF7AR5D400091 


5BD.html 指 向 的 Web 文 档 为 科技 类 别 ， 在 浏览 器 中 打开 该 页 面 ， 标 题 为 “伦敦 希望 谷歌 能 将 无 人 驾驶 汽车 测试 带 进 英国 ”， 该 文档 确实 属于 科技 类 别 ， 分 类 准确 无 误 。 


1247 ”语法 结构 分 析 


语法 是 语言 学 的 一 个 分 支 ， 研 究 按 确定 用 法 来 运用 的 词类 、 词 的 曲折 变化 或 表示 相互 关系 的 其 他 手段 及 词 在 句子 中 的 功能 和 关系 。 包 仿 词 的 构 词 、 构 形 的 规则 和 组 词 成 句 的 规则 。 


程序 12-18.py 演 示 了 如 何 使 用 NLTK 识 别名 词 短语 及 语法 树 分 析 : 





f--coding:utf-8-- 
#code by myhaspl 
































#12-18.ру 

from Future import unicode literals 
from future import division 

import pylab ` 

import nltk 

import sys 























sys.path.append ("http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 

pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 

from jieba import posseg 

def cutstrpos (txt): 
EDHI E 
cutstr = posseg.cut (txt) 
result="" 

for word, flag in cutstr: 
result+=word+"/"+flag+' ' 
return result 

sentencestr-[] 


























— 









































txtstr=""" 据 美国 华盛顿 自由 灯塔 网 站 2 月 17 日 报道 ， 政 府 问 责 局 16 日 发 布 的 这 份 报 告 称 ， 美 国 导 弹 防御 局 继续 将 大 笔 资 金 用 于 未 被 证 明 能 够 应 对 来 自 伊朗 或 朝鲜 的 弹道 导弹 袭击 的 技术 。 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 
































# 生 成 nltk 格 式 的 词性 单词 集 


posstr=cutstrpos (txtstr) 









































strtag-[nltk.tag.str2tuple (word) for word in posstr.split()] 
t5 3 2-3] 
sentstr-[] 
for wtag in strtag: 
if wtag[0].strip() in [ RUM "Mg m "ms n 
sentencestr.append(sentstr) 
sentstr-[] 
else : 
if wtag[1]!-"X": 


sentstr.append((wtag[0].strip(),wtag[1])) 
# 输 出 分 割 后 的 句子 
for wordstr in sentencestr: 
print 
for word in wordstr: 
print word[0],"/",word[1], 
# 名 词 短 语 识别 
grammar-r" nw 
NP: ( (XA»|«R» | «MQ») *<N>+<K>*} 
NP: ( (<A> | XR» | «MQ») *<NS>+<K>* } 
NP: {<М>+} 




















cpenltk.RegexpParser (grammar) 
resultl-cp.parse (sentencestr[0]) 
resultil.draw() 
result2-cp.parse (sentencestr[1]) 
result2.draw() 





























程序 12-18.py 中 有 以 下 关键 知识 点 。 
(1) 生成 NLTK 格 式 的 词性 单词 集 


首先 ， 通 过 jieba 中 文 分 词组 件 分 词 并 标注 词性 ， 分 词 结果 为 形 如 “词汇 1/ 词 性 1 词汇 2/ 词 性 2http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/.../http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/... 词 汇 n/ 词 性 n” 的 字符 捉 ， 每 个 词汇 之 间 用 空格 进行 分 隔 ; 然后 ， 调 用 nltk.tag 的 str2tuple 函 数 生成 NLTK 格 式 的 词性 单词 


ЕЕ 


zo 





posstr-cutstrpos (txtstr) 
strtag-[nltk.tag.str2tuple (word) for word in posstr.split()] 














(2) 句子 分 割 并 去 除 标点 


在 文本 字符 串 中 查找 “，”、“。 ”等 常用 的 中 文 标点 符号 ， 将 文本 分 割 成 句子 ; 此外， 将 词性 是 “X” 类 别 (这 个 词性 类 别 通 常 为 标点 ) 的 词 删除 。 























for wtag in strtag: 
if wtag[0].strip() in kF "ns ue "mono Ша ШЕ 
зепіепсезіг.аррепа (sentstr) 
sentstr-[] 
else : 
if wtag[1]!-"X": 


sentstr.append((wtag[0].strip(),wtag[1])) 


Qz jieba 中 文 分 词 有 用 的 是 和 ictclas 兼 容 的 标记 法 。 某 词 的 词性 “X ”表示 它 是 非 语 素 字 ， 非 语素 字 只 是 一 个 符号 和 未 知 数 。 
(3) 名 词 短语 识别 


使 用 NLTK 识 别 语法 结构 ， 最 好 的 方式 是 指定 某 语 法 结构 的 正则 表达 式 。 为 简单 起 见 ，12-18.py 根 据 本 例 的 实际 情况 ， 将 常用 的 名 词 短语 格式 定义 为 “形容 词 /代词 /数量 词 + 名 词 (包括 地 名 ) 若干 + 后 
缀 ”或 “日 期 ”的 格式 。 


grammar-r 
NP: ( (XA»|«R» | «MQ») *<N>+<K>* } 
NP: ( (XA»| XR» | «MQ») *<NS>+<K>* } 
NP: {<M>+} 








a A 表示 形容 词 ，R 表 示 代 词 ，MQ 表 示 数 量词 ，M 表 示 日 期 词 ，KK 表 示 后 级 。 有 具体 请 参见 ICTCLAS 汉 语词 性 标注 集 。 
(4) 解析 语法 结构 ， 并 绘制 语法 结构 图 


首先 通过 RegexpParser 来 构造 语法 结构 解析 器 ， 然 后 ， 通 过 解析 器 对 象 的 parse 方 法 解析 语法 结构 ， 并 通过 draw 方 法 绘图 。 





cpenltk.RegexpParser (grammar) 
resultl-cp.parse (sentencestr[0]) 
resultl.draw()""" 

















程序 12-18.py 运 行 后 ， 首 先 输出 句子 分 割 结果 ， 如 下 所 示 。 然 后 输出 语法 结构 图 ， 如 图 12-9 所 示 。 


据 / P 美国 / NS 华盛顿 / NS AH / A TÉ / N 3k / N2 / M jJ / M17 / M R / M 报道 / V 政 府 / N ARKA / N 16 / MH / M Ag / V ñj / UJ 3x4 / MO в / N 4k / V 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 





























CC 


PeP NP NP NP 报道 V 


美国 NS ” 华 成 顿 NS 。 自由 A ATEN 网 站 N 2M JM 17м HM 
图 12-9 ”语法 结构 图 


观察 图 12-9 所 示 的 语法 结构 图 ， 可 看 出 程序 12-18.py 识 别 出 名 词 短语 NP (比如 : “美国 华盛顿 ”) ， 并 将 它们 单独 绘制 在 树 的 第 三 屋 。 此 外 ， 树 的 第 一 层 是 $， 表 示人 句子， 第 二 层 是 该 句 的 语法 结构 : 
P 表 示 介 词 ，NP 表 示 名 词 短 语 ，V 表 示 动 词 。 


1248 ”Web 文 档 聚 类 


文档 聚 


进行 手工 标注 类 别 ， 因 此 具有 一 定 的 灵活 性 和 较 高 的 自动 化 处 理 外 


s 别 ， 


1 .重点 词 聚 类 


xc 一 


程序 12-19.py 演 示 了 如 何 使 用 NLTK 通 过 电影 评论 对 电影 进 和 





f--coding:utf-8-- 
#code by myhaspl 
#12-19.ру 
from Fu 
from 
impor 
impor 
impor 
impor 
impor 
impor 
SYS .pat 











cure import 


m unicode literals 
__ impor 


division 














Ct ct 

















cteocrF cr ot ç 


Sys 


类 (Text Clustering) 主要 是 依据 著名 的 聚 类 假设 : 同类 文档 的 相似 度 较 大 ， 而 不 同类 文档 的 相似 度 较 小 。 作 为 


TRX 


Z 


TR% 


zi 


th.append ("http: //www.hzcourse.com/resource/readi 





监督 的 机 器 学 习 方 法 ， 
行 有 效 地 组 织 、 摘 要 和 导航 的 一 种 重要 手段 。 





聚 类 由 于 不 需要 训 | 经 





以 及 不 需要 预先 对 文档 
引力 ， 已 经 成 为 对 文本 信息 进 


类 。 对 于 评论 而 言 ， 重 点 词 一 般 是 情感 类 及 相关 词汇 ， 本 例 将 重点 词汇 定义 为 名 词 、 形 容 词 、 语 气 词 及 叹 词 。 


"m 


EBPS/Text/../") 





























pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 

from jieba import posseg 

def cutstrpos (txt): 
# 分 词 + 词 性 
cutstr = posseg.cut( 
result-"" 


for word, 

















— 














Lx 














flag in cutst 
result —word+" /"+flag+' 

return result 

inittxtw(allwords): 

txtwords-() 

for w in allwords: 

txtwords [w]-0 

return txtwords 

txtfeatures (allwdt,tokenw): 

# 词 频 特征 提取 

txtfd=nltk.FreqDist (tokenw) 

for key,val in sorted(txtfd.iteritems()): 

allwdt[key]-val 

. allwdt. = 


论 将 电影 














def 



































def 



































ret 
# 根 据 电 影 


urls=[( BEF5 











Book?path-/openresources/teach ebook/uncompressed/15753/0 


L97P0O0034R77.html"), 








We ma ss E nan 





allw-[] 
tokendocstr- 
i-0 
errorfil 
For (fil 


[] 


m- [] 
m, myur] 











in urls: 





) 


(u" 唐 人 街 探 案 ", "http://ent.163.com/15/1230/15/BC3G8VQ700034R77 . html") , (u" 4E JE X 4&", "http: //ent.163.com/1 


print NN 火炎 火炎 火炎 火炎 类 大火 火炎 «"-film-"» JZ ç Jë * * * < k k k < < < < < < k k k k k x< x Kk"! 





htm] 
htm] 
pa 
ma 
ma 
i 


src-urllib.urlopen (myurl).read() 
src-htmlsrc.decode('gbk') 
ttern-re.compile (r' ((class-"end-text"») | (<br 
tch = pattern.findall (repr (htmlsrc)) 
tchstr-"" 
f match: 
mstr-ma 
matchstr- 
lse: 
print 
errorf 

















/> 





























Сс [0] [4] 
=mstr 





.encode ('utf-8') .decode ("unico 

















film, "无 法 取得 评论 !" 
ilm.append (i) 





і+=1 
txtstrematchstr.replace ("«/p»","").replace("«p»"," 
# 生 成 nltk 格 式 的 词性 单词 集 
posstr=cutstrpos (txtstr) 
strtag-[nltk.tag.str2tuple (word) 
cutstr-"" 
for word,tag in E 

# 只 处 理 名 词 、 形容 词 、 iE. 叹 词 
tag[0] "м" or tag[0]--"A" ог tag[0]--"Y" 

cutstr+=word+" " 

print cutstr 
tokendocstr.append(nltk.word tokenize (cutstr)) 
docstr in tokendocstr: 
for w in docstr: 
allw.append (w) 
11м) 
ures= 
in tokendocstr: 
t-inittxtw (allw) 
cure-numpy.array (tx 
features.append (дос: 


Ж Ж uri eU d ULL " 
ltk.cluster.gaac.GAAClusterer (num cluste 
.Cluster (vectors-samplefeatures) 























for word in posst 

















if 



































[] 





























Features (allwdt,docstr)) 


Feature) 





















































Features: 
"RAAS" 
fier.classify (data) 


for data 
prin 
prin 
i+=1 
#kmeans £ £ 
print u" 
txtclassf 
txtclassf 
i-0 
for data 
prin 
prin 
i+=1 


in sample 
t urls[ 
t txtc] 


t 




















kmeans# 3-------------- M 




















.Cluster (samplefeatures) 








Features: 
," 聚 类 编号 :" 
fier.classify 


in sample 
t urls[i][0] 
t txtclass 

















(data) 





程序 1 2-19. py 中 有 以 下 关键 知识 识 点 。 
(1) 文本 特征 提取 


通过 提取 重点 词 在 文本 中 出 现 的 数量 作为 该 文本 的 条 



































</р><р>)) (.*<style>.*--></p>)* (.+?) (</p></div>|<div id-)') 


de-escape") 


").replace ("«span»","") . replace ("«/span»", "") . replace (r'«b»','') .replace (r'«/b»', ' !) 


r.split()] 


TW e 
. 


ог tag[0]--"E 





rs=5,normalise=True) 





ltk.cluster.kmeans.KMeansClusterer (num means=5,distance=nltk.cluster.util.euclidean distance) 





寺 征 ， 代 码 如 下 所 示 : 





def txtfeatures (allwdt,tokenw): 
# 词 频 特征 提取 
txtfd=nltk.FreqDist (tokenw) 
for key,val in sorted(txtfd.iteritems()): 
allwdt[key]-val 
return allwdt.values() 
(2) 重点 i їп] 


N 表 示 名 词 ，A 表 示 形 容 词 ，Y 表 示 语 气 词 ，E 表 示 叹 词 ， 将 这 4 类 





for word,tag in strtag: 


# 只 处 理 名 词 、 形 容 词 、 1% 气 词 、 叹 词 


if 





tag[0]-2-"N" ог tag[0]--"A" or tag[0]--"Y" or tag[0]--"E 


^ ] 先 


词 筛 选 出 来 作为 评论 的 重点 词 ， 参 与 文本 特征 提取 计算 。 代 码 如 下 所 示 : 


н. 





cutstr+=word+" " 





(3) GAA 算 法 


群 平均 聚 类 ， 简 称 GAA (The Group Average Agglomerative) ， 核 心思 想 是 : 开始 以 每 一 个 向 量 作为 单个 群 ， 然 后 迭代 ， 将 有 最 近 的 质心 的 集 全 部 成 群 ， 这 一 过 程 持续 到 仪 有 一 个 群 ， 这 种 合并 产生 
了 树 状 图 。 纵 观 这 一 过 程 可 以 看 出 ，GAA 属 于 层次 式 聚 类 方法 ， 它 的 基本 步骤 如 下 : 


1) 将 每 个 对 象 归 为 一 类 ， 共 得 到 N 类 ， 每 类 仪 包含 一 个 对 象 。 类 与 类 之 间 的 距离 就 是 它们 所 包含 的 对 象 之 间 的 距离 。 
2) 找到 最 接近 的 两 个 类 并 合并 成 一 个 类 ， 于 是 类 的 总 数 少 了 一 个 。 

3) 重新 计算 新 的 类 与 所 有 旧 类 之 间 的 距离 。 

4) 重复 第 2 步 和 第 3 步 ， 直 到 最 后 合并 成 一 个 类 为 止 此 类 包含 了 N 个 对 象 ) 。 


整个 聚 类 过 程 其 实 是 建立 了 GAA 树 (如 图 12-10 所 示 ) 。 关 键 是 如 何 判断 两 个 类 之 间 的 相似 度 ， 对 于 文本 而 言 ， 一 般 使 用 余弦 距离 来 判断 相似 性 。 

















112-10 GAA 树 
使 用 NLTK 进 行 GAA 的 过 程 一 般 如 下 : 


1) 通过 nltk.cluster.gaac 的 GAACIusterer 函 数 构造 GAA 对 象 ， 其 中 normalise 参 数 为 True 时 表示 使 用 余弦 相似 度 。 代 码 如 下 所 示 : 








txtclassfier-nltk.cluster.gaac.GAAClusterer (num clusters-5,normalise-True) 








2) 以 聚 类 样本 为 参数 调用 cluster 函 数 进 行 聚 类 。 代 码 如 下 所 示 : 








txtclassfier.cluster (vectors-samplefeatures) 





3) 通过 classify 函 数 返回 聚 类 结果 。 代 码 如 下 所 示 : 











print txtclassfier.classify (data) 


(4) K 均 值 算法 


K 均 值 算法 以 欧式 距离 作为 相似 度 来 测度 ， 它 是 求 对 应 某 一 初始 聚 类 中 心 向 量 V 的 最 优 分 类 ， 使 得 评价 指标 J 最 小 。 算 法 采用 误差 平方 和 准则 函数 作为 聚 类 准则 函数 ， 即 认为 两 个 对 象 的 距离 越 近 ， 其 相 
似 度 就 越 大 ， 因 此 算法 把 产生 紧凑 且 独 立 的 篮 作 为 最 终 目 标 。 


该 算法 在 每 次 迭代 中 对 数据 集中 剩余 的 每 个 对 象 ， 根 据 其 与 各 个 簇 中 心 的 距离 将 每 个 对 象 重新 赋 给 最 近 的 秘 。 当 考察 完 所 有 的 数据 对 象 后， 一 次 迭代 运算 完成 ， 新 的 聚 类 中 心 被 计算 出 来 。 如 果 在 一 次 
迭代 前 后 ， 评 价 指标 J 的 值 没有 发 生变 化 ， 就 说 明 算法 已 经 收敛 。 


算法 的 具体 过 程 如 下 : 


1) 从 N 个 文档 随机 选取 K 个 文档 作为 质 


2) 对 剩余 的 每 个 文档 测量 其 到 每 个 质心 的 距离 ， 并 把 它 归 到 最 近 的 质心 的 类 。 


C 


3) 重新 计算 已 经 得 到 的 各 个 类 的 质心 。 
4) 迭代 第 2 步 和 第 3 步 直 至 新 的 质心 与 原 质心 相等 或 小 于 指定 阅 值 ， 算 法 结束 。 
使 用 NLTK 进 行 K 均 值 算法 的 过 程 一 般 如 下 : 


1) 通过 nltk.cluster.kmeans 的 KMeansClusterer 国 数 构 造 K 均 值 聚 类 器 对 象 。 代 码 如 下 所 示 : 











txtclassfier-nltk.cluster.kmeans.KMeansClusterer (num means-5,distance-nltk.cluster.util.euclidean distance) 








2) 以 聚 类 样本 为 参数 调用 cluster 函 数 进行 聚 类 。 代 码 如 下 所 示 : 








txtclassfier.cluster (vectors-samplefeatures) 








3) 通过 classify 函 数 返回 聚 类 结果 。 代 码 如 下 所 示 : 








print txtclassfier.classify (data) 





2. 关 键 词 聚 类 


程序 12-20.py 演 示 了 如 何 使 用 NLTK， 通 过 电影 评论 对 电影 进行 聚 类 。 与 12-19.py 不 同 的 是 ， 本 例 聚 类 的 依据 是 关键 词 ， 计 算 关 键 词 的 算法 为 TF/IDF 权 重 算法 ， 取 权重 最 大 的 前 30 个 词 作为 关键 词 。 代 
码 如 下 所 示 : 





f--coding:utf-8-- 
#code by myhaspl 














#12-20.ру 
from future import unicode literals 
from Future — import division 














import pylab 
import nltk 

















import urllib 
import numpy 
import re 
import sys 


import jieba.analyse 

sys.path. append ("http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/../") 

pylab.mpl.rcParams['font.sans-serif']-['SimHei'] 

from jieba import posseg 

def cutstrpos (txt): 
# 分 词 + 词 性 
cutstr = posseg.cut (txt) 
result-"" 

for word, flag in cutstr: 
result+=word+"/"+flag+' ' 
return result 

def inittxtw (allwords): 

cxtwords-(] 

for w in allwords: 

cxtwords [w]-0 

return txtwords 

def txtfeatures (allwdt,tokenw): 

# 统 计 词 频数 

txtfd-nltk.FreqDist (tokenw) 

for key,val in sorted(txtfd.iteritems()): 

allwdt[key]-val 

return allwdt.values () 


# 根 据 电影 评论 将 电影 聚 类 
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urls-[(u"zj Xf&d$3","http://ent.163.com/16/0129/00/BEF5L97P00034R77 .htm1") , (u"/£ ABra& 3e", "http: //ent.163.com/15/1230/15/BC3GSVQ700034R77 . html") , (u 3EJ£ X 48", "http: //ent.163.com/1 
allw-[] 

tokendocstr-[] 

i-0 

errorfilm-[] 

For (film,myurl) in urls: 











1 " * * * < k k x k k < k < < x < "n 1 " У АЦ 
print "An <"+film+"> 关键 ? 


htmlsrc-urllib.urlopen (myurl).read() 
htmlsrc-htmlsrc.decode('gbk') 






































pattern-re.compile(r'((class-"end-text"»)| («br /></p><p>)) (.*«style».*--»«/p»)*(.-2) (X/p»«/div»|«div id-)') 
match = pattern.findall (repr (htmlsrc)) 
matchstr-"" 
if match: 
mstr-match[0][4].encode ('utf-8') . decode ("unicode-escape") 




















matchstr--mstr 
else: 
print film, "无 法 取得 评论 !" 


























errorfilm.append (i) 
і+=1 
txtstr-matchstr.replace ("</р>","") .replace ("<р>","") .replace ("«span»","") . replace ("</ѕрап>", "") . replace (r'«b»', '') .гер1Іасе (r'«/b»', ' !) 
# 提 取 前 30 位 TEVIDE 权 重 最 大 的 关键 词 
topK = 30 
tags = Jieba.analyse.extract tags (txtstr, topK-topK) 
cutstr-" .join (tags) 





print cutstr 

tokendocstr.append(nltk.word tokenize (cutstr)) 

for docstr in tokendocstr: 

for w in docstr: 

allw.append (w) 

allw=set (allw) 

samplefeatures= [] 

for docstr in tokendocstr: 
allwdt=inittxtw (allw) 
docfeature-numpy.array (txtfeatures (allwdt, docstr)) 
samplefeatures.append (docfeature) 







































































print u"---------------- СААСЖ Ж------------ " 
txtclassfier-nltk.cluster.gaac.GAAClusterer (num clusters-5,normalise-True) 
cxtclassfier.cluster (vectors-samplefeatures) 



































for data in samplefeatures: 

print urls[i] [0], "6 2$ 5 :" 

print txtclassfier.classify (data) 

і+=1 
fkmeans Жж AX 
print u"------------- kmeans& À-------------- " 
txtclassfier-nltk.cluster.kmeans.KMeansClusterer (num means-5,distance-nltk.cluster.util.euclidean distance) 
txtclassfier.cluster (samplefeatures) 
i-0 
for data in samplefeatures: 
print urls[i] [0], "6 2$ 5 :" 
print txtclassfier.classify (data) 


© 




































































程序 12-20.py 的 核心 在 于 提取 关键 词 ， 本 例 基于 TF/IDF 权 重 ， 即 : 取 TF/IDF 权 重 最 高 的 前 30 个 词 作为 关键 词 。 


TF-IDF 是 一 种 统计 方法 ， 用 以 评估 某 一 字 词 对 于 一 个 文件 集 或 一 个 语料库 中 的 某 一 份 文 件 的 重要 程度 。 字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 ， 但 同时 会 随 着 它 在 语料库 中 出 现 的 频率 成 
反比 下 降 。TF 指 词 频 (Term Frequency) ，IDF 指 逆向 文件 频率 (Inverse Document Frequency) 。TF 的 意义 在 于 可 表示 词 条 t 在 文档 d 中 出 现 的 频率 ，IDF 的 意义 在 于 如 果 包 含 词 条 t 的 文档 越 少 ， 也 就 是 
n 越 小 ，IDF 越 大 ， 则 说 明 词 条 t 贞 有 很 好 的 类 别 区 分 能 力 。 


下 面 的 代码 片断 通过 调用 jieba 分 词组 件 的 analyse.extract tags 方 法 来 分 析 TF/IDF 权 重 : 





# 提 取 前 30 位 TEV/IDE 权 重 最 大 的 关键 词 
30 





topK = 
tags = jieba.analyse.extract tags(txtstr, topK-topkK) 
cutstr-"  ".join(tags)- 





print cutstr 
tokendocstr.append (nltk.word tokenize (cutstr)) 











程序 12-20.py 首 先 输出 各 部 电影 评论 的 关键 词 ， 然 后 输出 电影 的 聚 类 结果 ， 聚 类 编号 相同 者 为 观众 心目 中 的 同一 类 型 电影 。 运 行 结果 如 下 : 


PI 


ххк (X SETS 3». X4bipeecccoooooe*** ES 功夫 Fg AA ATL) 影片 反派 动画 电影 修炼 师父 电影 搞笑 动画 角色 AS МЕ AR AEk -R 顿悟 气功 一 部 z 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
uu xn MENS RM GAAC 聚 类 ------------ 功 夫 能 猫 3 聚 类 编号 : Е 

1 唐人 街 探 案 聚 类 编号 : 

2 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
NIIT LUE Ктеапэ ж %--------------0 A 8363 聚 类 编号 : Е 

4 唐人 街 探 案 聚 类 编号 : 

1 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15753/OEBPS/Text/..http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 



















































































125 小 结 


现在 已 经 是 数字 时 代 了 ， 可 获得 的 和 需要 处 理 的 文本 数量 越 来 越 多 ， 而 文本 数据 与 其 他 数据 不 同 ， 它 具有 非 结 构 化 的 特点 ， 这 对 文本 数据 的 分 类 与 自然 语言 的 处 理 提出 了 更 高 的 要 求 。 


本 章 首先 介绍 了 基于 余弦 相似 度 、 朴 素 贝 叶 斯 算法 的 文本 分 类 及 Web 文 档 分 类 技术 ， 并 详细 讲解 了 文本 预 处 理 技术 (中 文 分词 、 停 用 词 处 理 等 ) 、 文 本 特征 提取 技术 等 内 容 。 然 后 阐述 了 使 用 NLTK 工 
具 对 中 文 进行 自然 语言 处 理 的 技术 ， 包 括 分 词 与 词性 标注 、 词 汇 特征 指标 、Web 文 档 分 析 、Web 文 档 分 类 及 聚 类 、 文 本 语法 结构 分 析 等 内 容 。 


cH 
dk 
Ёш 


(1) 基于 余弦 相似 度 算法 对 新 闻 网 页 进行 分 类 ， 观 察 其 效果 。 


Qu “文本 祥 本 的 特征 组 可 以 定义 为 其 包含 的 词 条 在 甘 类 别 中 出 现 的 先 验 概率 。 
(3) 基于 加 权 朴素 贝 叶 斯 算法 对 新 闻 网 页 进行 分 类 ， 观 察 其 效果 


Qux 可 以 以 新 闻 的 标题 为 关键 白 ， 将 标题 中 包 合 的 词典 也 较 大 的 权重 ， 将 权重 直接 乘 以 先 验 概率 作为 标题 词 条 的 先 验 概率 。 


